Tekstkorpus eller korpus (frå latin, 'lekam') er ei samling av maskinelt leselege tekster som tener eit bestemt føremål, og i tillegg følgjer reglar for innhald og format.

For språkforskarar er tekstkorpus eit stort og strukturert sett av tekster (vanlegvis elektronisk lagra og prosessert), som er nytta som utgangspunkt for analysar av språk. Til støtte for analysen er orda i teksten ofte annoterte, det vil seia forsyna med opplysing om ordklasse, ordstamme eller faste vendingar. På grunnlag av dette analyserer ein den grammatiske strukturen i setningar. Bruksområde er omsetjing og taleattkjenning.

Kjelder endre