Unicode er eit teiknsett som blir vidareutvikla av organisasjonen The Unicode Consortium. Organisasjonen vart stifta i 1991 med det føremål å skape eit standard teiknsett for alle datamaskiner og som støtter alle språk som er i praktisk bruk. Unicode-standarden hadde i versjon 3.1 95221 skriftteikn. Standarden har seinare vorte utvida.

Unicode

Nyaste versjon16.0.0 (10. september 2024)[1]
OS-familieXerox Character Code Standard, ISO/IEC 10646, ISO/IEC 2022, ISO 8859, ISO/IEC 646
LisensUnicode® Copyright and Terms of Use
Nettstadhttps://unicode.org/

Unicode har fleire kodesett som har sin måte å framstille teikna. I UTF-32 blir det brukt 32 bit per teikn for å representere dagens Unicode-teiknsett, medan teikna i UTF-16, som blir brukt i nyare versjonar av Windows, vert delt opp i porsjoner på 16 bit. I UTF-8 blir Unicodeverdiane overført til ein- eller fleirbyte-sekvensar, etter ein matematisk algoritme. I og med at mange operativsystem (t.d. UNIX) krev 8-bits bytes, er UTF-8 kanskje det viktigaste Unicode-formatet i dag. I tillegg vil ein med UTF-8 kunne spare mykje minne ved handsaming av store mengder tekst, som inneheld hovudsakleg teikn som passar inn i første byten.

Det store fortrinnet med Unicode er at det gjer fleirspråkleg kommunikasjon mogleg. Medan ANSI-teiknsetta hindrar brukaren i å skrive på fleire språk innanfor eitt og same dokument, støttar Unicode dei fleste språk.

Redigeringsprinsipp

endre

Det sentrale prinisppet i Unicode er at standarden skal vere kompatibel med tidlegare versjonar. Unicode har dermed berre ein redigeringsmetode, og det er å leggje til teikn. Viss eit teikn står i Unicode-standarden, blir det ståande der til evig tid. I startfasen vart det lagt til ein ein del teikn som ikkje ville ha komme med i dag.

Unicode er identisk med ISO/IEC-standarden ISO/IEC 10646, og han blir redigert av to ulike komitear, UTC (Unicode Technical committee, med representantar frå dataindustrien, og ulike lingvistar og skriftekspertar), og ISO/IEC JT1 SC2, komiteen for teiknsett. Prosessen å få eit nytt teikn inn i Unicode tar fleire år.

Historie

endre

Før opprettinga av Unicode-konsortiet satsa ISO på 8-bits teiknsett, den såkalla ISO/IEC 8859-standarden. Her skulle kvar region i verda ha sin eigen kodetabell, der den første halvparten (teikna frå 0 til 127) skulle vere amerikansk ASCII, mens den andre halvparten (frå 128 til256) skulle variere. Skiftinga frå standard til standard var regulert i ein separat standard, ISO 2202. Frå og med 1991 gjekk dei bort frå denne politikken, men i ein overgangsfase vil mange (t.d. i Vest-Europa) framleis bruke 8-bits-standardar.

Unicode har fått kritikk for implementasjonen av kinesiske hàn-tegn (hànzì). Teikna har varierande utsjånad i kinesisk, japansk og koreansk, medan Unicode berre inkluderer teikna éin gong. Samstundes omfattar Unicode fleire vestlege teikn som ser helt like ut i ulike regionar, dette for å gjere seg kompatibel med eldre teiknsett. Eldre versjonar av Unicode mangla òg ein del kinesiske teikn, men dette er til dels vorte korrigert.

Kjelder

endre

Bakgrunnsstoff

endre
  Commons har multimedium som gjeld: Unicode