Dokumentklassifisering

Automatisk dokumentklassifisering er, innanfor språkteknologien, ei algoritme for å få ei datamaskin til å klassifisere dokument i ulike klasser. Bruksområde for slike program er bibliotek, ulike arkiv, telegrambyrå, søkemotorar, store firma, og andre som handsamar store mengder tekst. Dokumenta kan vere t.d. bøker, artiklar, www-sider, e-post eller interne dokument.

Eit svært aktuelt bruksområde for dokumentklassifisering er å klassifisere e-post i to klassar, søppelpost og anna post.

Bakgrunn endre

I utgangspunktet har dokument blitt klassifisert av menneske som forstår det dei les, og som er sakkunnige innanfor dei sjangrane dokumenta er henta frå. Denne manuelle framgangsmåten er ressurskrevjande og sein, og til ein viss grad også subjektiv. Ulike arkivarar kan klassifisere ulikt, og ein og same person kan klassifisere same dokument ulikt frå ein gong til neste.

Viss klassifiseringsmetodane blir operasjonalisert, t.d. til å fungere etter eit definert sett av reglar, blir nokre av problema med den manuelle metoden retta på, men det er framleis ein ressurskrevjande metode.

Samanlikna med manuell klassifisering er maskinell klassifisering rask, og det er framfor alt mogleg å gje det same systemet same dokument ein gong til, og få det klassifisert på same måte. Så lenge dei maskinelle systema blir halde konstant er dei altså forutseibare.

Framgangsmåtar endre

Den første fasen i dokumentklassifiseringa er å velje klassifiseringstrekk. Sentrale er orda i teksten, og frekvensen deira. Viss eit sett av ord har markant høgare frekvens i teksten enn dei har i normalspråket, og viss dette settet høyrer til same predefinerte fagområde, er dette eit argument for å klassifisere dokumentet innanfor dette fagområdet. Eit anna viktig moment kan vere eventuelle metadata.

Trekka blir så gjeve til ei klassifiseringsalgoritme, t.d.