Samisk språkteknologi

Med samisk språkteknologi meiner vi ulike teknologiske løysingar for samiske språk. Introduksjonen av datamaskina fall i tid saman med ein ny språkpolitikk for samiske språk i Norden.

Lokalisering endre

Med lokalisering i datasamanheng meiner vi alt som har med tilpassinga av maskina til lokale tilhøve å gjere, dvs. ting som kjem av at vi snakkar ulike språk, men også konvensjonar som ulike valutaforkortingar (kr. eller €), ulike desimalseparatorar (12 345,67 eller 12,345.67) og ulike datoformat (9/11 eller 11/9). For samisk er det framforalt dei samiske bokstavane som er relevant i lokaliseringssamanheng.

Teiknsett endre

Av dei seks samiske skriftspråka er det berre sørsamisk som klarer seg med dei same bokstavane som det majoritetsspråka har (det einaste unntaket er bokstaven ï, men han finst i fransk og er dermed alltid vore tilgjengeleg i språkteknologiske produkt i Noreg og Sverige. Lulesamisk har hatt bokstaven ń, som kan skrivast utan problem på manuell skrivemaskin. Før innføringa av Unicode kunne ikkje norske og svenske operativsystem skrive ń, og lulesamar skreiv ñ i staden.

Før det kom offisielle standardar som inkluderte samisk, vart mange ulike kodetabellar endra for å inkludere samiske bokstavar på privat basis, på ulike vis. Den enklaste måten var å ha typesnitt som gav samiske bokstavar dei same talverdiane som dei latinske bokstavane dei erstatta på tastaturet hadde, slik at der den vanlege kodetabellen hadde qxw@¨y<, la den modifiserte tabellen áčđŋšŧž. Fordelen var at ein ikkje spesielte tastaturprogram (tastaturet «trudde» det skreiv q, x, osb.), men ulempa var at det vart umogleg å skrive t.d. Wexelsen og Nystad. Andre kodetabellar lot samiske bokstavar erstatte bokstavar som var i bruk i t.d. spansk og fransk, som det vart gjort i kodetabellane Samtast og Winsam. Den første tabellen som offisielt hadde samiske bokstavar var ISO/IEC 8859-4, eller Latin 4. Denne tabellen var eit resultat av ISO sitt forsøk på å dele språka som brukte latinsk alfabet i Europa i fire grupper, vest, aust, sør og nord. Den fjerde av desse standardane var altså Latin 4. Denne standarden vart hemma av at dei nordiske landa tok i bruk den vesteuropeiske Latin 1 i staden for Latin 4, og Latin 4 vart dermed lite brukt, i samisk samanheng mest i Finland.

I juni 1996 gjekk ein konferanse i Karasjok inn for ein ny samisk standard, som skulle inkludere alle dei latinskbaserte samiske skriftspråka. Konferansen resulterte også i stiftinga av Samisk datautval, som gjennomførte ein anbodskonkurranse for typesnitt til den nye standarden, inkludert tastatur og lokalisering. Denne standarden vart aldri med i 8859-serien, men vart registrert som ISO/IR 197. Standarden vart i liten grad brukt, framforalt fordi Microsoft gjekk imot ein samisk standard basert på ISO-standardane i 8859-serien i staden for på Microsofts eigen cp 1252. Resultatet av Microsoft sin motstand mot ISO-løysinga vart at Samisk datautval i staden gjekk inn for ein Microsoft-basert-standard, den såkalla Levi-standarden. Levi vart eit mellomspel, m.a. fordi Microsoft sjølv ikkje innførte han.

For Macintosh var situasjonen enklare. Der var det berre ein åttebitsstandard, (den uoffisielle) Macintosh Sámi Standard. Denne standarden var ikkje kompatibel med ASCII, og kunne dermed ikkje bli lagt til grunn for den samiske fellesstandarden, men data kunne i praksis bli konvertert mellom Macintosh-standarden og den Linux- og/eller Windowsstandarden som skulle vejast.

Det var heile tida klårt at arbeidet med 8-bitsstandardar berre var eit mellomspel før Unicode ville slå gjennom, men gjennnombrotet for internett på midten av 1990-talet gjorde det viktig å få ein felles standard, sjølv om det berre var for ein overgangsperiode på nokre år.

Frå og med innføringa av Unicode har alle dei latinskbaserte samiske skriftspråka vore tilgjengelege for alle databrukarar, frå og med Macintosh OS X og Windows XP. Linux-system var i utgangspunktet klår for Unicode, via multi-byte-formatet UTF-8.

Kildinsamisk skil seg noko frå dei andre skriftspråka. Det kjeldematerialet som ISO hadde brukt då dei laga den kyrilliske delen av Unicode, var såpass gammalt at det ikkje hadde fått med seg at kildinsamisk hadde vorte tatt i bruk att på 1970-talet. Dei spesielle kildinsamiske bokstavane mangla dermed i dei første versjonane av Unicode, og vart ikkje tekne med før i versjon 3.0.

Tastatur endre

 
Nordsamisk tastatur, del av Mac OSX.

Om notasjon: Tastaturposisjonar er her referert til etter ISO 9995-standarden: Radene har bokstavar, A for lågaste (ordskiljarrekkja) og E for høgaste (talrekkja) rad, og kolonnene referert til med nummer, etter nummera på rad E, slik at R ligg på posisjon D04 og J på posisjon C07.

For skoltesamisk, enaresamisk og kildinsamisk var det heile tida berre ein tastaturstandard. For nordsamisk eksisterte det på byrjinga av 1990-talet fleire standardar, m.a. Vplan, Samisk språkråd og JL-types sine tastatur. På venstre sida av tastaturet var alle versjonane like (bortsett frå språkrådet sitt tastatur, som ikkje hadde Ž på B00). Á og Š låg på D01 og D02, Ž på B00 og Č på B02. På høgre side var det meir variasjon. Dei ulike tastatura hadde brukt posisjonane C10, C11 og D11 (posisjonane til dei skandinaviske bokstavane) i varierande grad, og på ulik måte.

Samisk datautval gjorde frekvensstudium av samisk tekst, og fann ut at i samisk tekst på finsk side var ä relativt vanleg, og på norsk side var ø og å det same. Datautvalet gjekk dermed inn for ei tastaturløysing med bevart æøå, og med dei samiske bokstavane đ og ŋ på C12 og D12. (đ var vanlegare og fekk dermed den beste posisjonen (C-lina).

Datautvalet sitt tastatur vart, med mindre endringar, gjort til nordisk standard for samisk tastatur, og er i dag del av standarddistribusjonane for både Linux, Macintosh og Windows. Nordsamisk er det minste språket i verda som er i den posisjonen.

Sortering endre

Alle dei latinskbaserte samiske språka sorterer bokstavane sine på same måte (parentes markerer sortering på nivå 2, og semikolon på nivå ein.

Aa (Àà); Áá; Ââ; Bb; Cc (Çç); Čč; Ʒʒ; Ǯǯ; Dd; Đđ (Ðð);
Ee (Éé, Èè, Êê, Ëë); Ff; Gg; Ǧǧ; Ǥǥ; Hh; Ȟȟ;
Ii (Íí, Ìì, Îî, Ïï, İı); Jj; Kk; Ǩǩ; Ll; Mm; Nn; Ŋŋ (Ńń, Ññ);
Oo (Óó, Òò, Ôô); Õõ; Pp; Qq; Rr; Ss (ß); Šš; Tt; Ŧŧ;
Uu (Úú, Ùù, Ûû); Vv; Ww; Xx;
Yy (Ýý, Ÿÿ, Üü); Zz; Žž; Þþ;
Ææ; Øø; Åå; Ää; Öö;

Data-tid-format endre

Grammatisk basert språkteknologi endre

Universitetet i Tromsø har utarbeidd ein morfologisk analysator og generator for nordsamisk, og ein for lulesamisk, dei er basert på endelege tilstandsautomatar. Ein morfologisk disambiguator og syntaktisk analysator er under utarbeiding, dei byggjer på føringsgrammatikk.

Med utgangspunkt i desse analysatorane gjennomførte det norske sametinget eit prosjekt som ordretteprogram for nord- og lulesamisk, dei vart ferdig hausten 2007.

Samisk språkteknologi før dataalderen endre

Samiske typesnitt endre

Grafisk industri har heilt sidan Rasmus Rask innførte spesielle bokstavar for nordsamisk vore i stand til å lage lause blytypar for samiske bokstavar. Dermed var det for gode trykkeri fullt mogleg å trykke vakre samiske bøker og trykksaker heilt fram til innpå 1970-talet, då lause blytypar etter kvart vart fasa ut. Deretter kom det ein vanskeleg periode, fram til innføringa av Unicode.

Samiske skrivemaskiner endre

Med ei manuell skrivemaskin var det mogleg å produsere dei samiske bokstavane áčđŋšŧž, om enn på ein svært tungvint måte. Caron (ˇ) vart produsert med å skrive både akutt og grav aksent før sjølve grunnbokstaven vart skrive, đ og ŧ kunne bli produsert med å skrive bindestrek og steg attende, og ein svært stygg ŋ kunne bli skrive med hjelp av å skrive j oppå n.

Med innføringa av elektriske kulehovudmaskiner vart det også produsert nokre (svært få) kulehovud for nordsamisk.

Bakgrunnsstoff endre