Segmentering av tekst

Segmentering av tekst er prosessen med å dele skriftspråkstekst inn i ord eller andre tilsvarande einingar, som fleirordsuttrykk (som Ny Ålesund, Rådet for vidaregåande opplæring, osb) setningar, og avsnitt. Denne prosessen er ein sentral del av preprosesseringa av tekst før det er mogleg å analysere henne med språkteknologiske metodar.

For tekst skrive med t.d. det latinske eller kyrilliske alfabetet er mellomromteiknet (Unicode Ux0020) den viktigaste indikasjonen på at vi har eit nytt ord. I kinesisk er det langt verre, kinesisk blir ikkje skrive med mellomrom på same måten, og det er komplisert å skilje mellom ein- og fleirteiknsord.

For språk skrive med det arabiske alfabetet er bruken av ulike bokstavar i ordinitial og ordfinal posisjon med og gjer ordgrensebestemminga lettare.

For å finne setningsgrensar trengst det andre metodar.

Sjå og endre