Automatisk samandrag

Automatisk samandrag er det å lage ei forkorta versjon av ein tekst med hjelp av eit dataprogram. Eit godt samandrag skal innehalde det viktigaste meiningsinnhaldet frå den originale teksten.

Tilgang til gode samandrag kjem til å bli viktigare ettersom mengda av tilgjengeleg tekst aukar. Eit døme på automatiske samandrag er søkemotorar, slike som alltheweb.

Typar av samandrag

endre

Det er mogleg å lage samandrag på to måtar: Enten ved å kopiere ut setningar som blir sett på som meir viktige enn andre, utan å endre dei, eller ved å skrive om innhaldet til ein kortare, meir konsentrert tekst. Det å skrive om gjer det mogleg å få plass til meir informasjon på mindre plass, men det er også vanskelegare å lage slike program.

Samandrag kan bli laga for å lese dei som sjølvstendige tekstar, eller dei kan bli laga for å bli lese av søkemotorar. I det siste tilfellet er målet å kome fram til eit lite sett av nøkkelord.

Metodar

endre

For å finne ut kva eit dokument handlar om, har samandragsprogramma ulike metodar. Dei samanliknar frekvensen av ord i dokumentet med frekvensen av ord i normalspråket, og ord som er meir frekvent i dokumentet enn i normalspråket blir vurdert som sentrale for innhaldet i dokumentet. Setningar som inneheld desse orda dannar kjernen i samandraget. Den overordna strukturen i dokumentet er også viktig: Setningar i innleiings- og avslutningskapitlet, setningar i strekpunkt osb. blir gjeve større vekt.

Ei sentral utfordring er å halde styr på anaforar og antesedentane deira. Det gjev lita meining å dra ut ei setning som inneheld ord som dette i Dette viser at... når det i samandraget er umogleg å vite kva dette refererer til.

Evaluering

endre

Som i mykje språkteknologisk forsking er evaluering like omfattande som sjølve emnet, mykje forsking går med på å finne metodar for å evaluere kor gode automatiske samandrag er, og for å finne korleis vi automatisk og systematisk kan avgjere om det eine samandraget er betre enn det andre.

Litteratur

endre


Bakgrunnsstoff

endre