Apertium
Apertium er eit maskinomsetjingssystem som blir utvikla med støtte frå mellom anna den spanske regjeringa, Kulturdepartementet i Noreg,[2][3] regjeringa i Catalonia, og universitetet i Alicante, i tillegg til bidrag frå private aktørar, ymse universitet, studentar og frivillige entusiastar. Det er fri programvare, publisert under GNU GPL.
Apertium | |||
| |||
| |||
Utgjevar | Google Play | ||
---|---|---|---|
Nyaste versjon | 3.9.4 (28. desember 2023)[1] | ||
Skriven i | C++, Programmeringsspråket Java | ||
Type | regel-baseret maskinomsetjing | ||
Lisens | GPLv2 | ||
Nettstad | https://www.apertium.org |
Historie
endreApertium starta som eit av maskinomsetjingssystema i prosjektet OpenTrad og var opphavleg laga for å omsetja mellom nærskylde språk, men det har seinare vorte utvida til å handsama språk med større skilnader, som t.d. baskisk→spansk, nordsamisk→bokmål og kasakhisk→engelsk.
Sidan 2009 til no (2020) har det vore med i Google Summer of Code og Google Code-In kvart år og dermed fått bidrag frå mange studentar.
Wikipedia har sidan 2014 brukt Apertium til innhaldsomsetjing[4] og har bidratt til utvikling av meir språkdata.
Metode
endreSystemet er modulært, og for å leggja til eit nytt språkpar er det nok å leggja til språklege data (omsetjingsordbok, reglar) i veldefinerte format (hovudsakleg XML-baserte). Modulane er definerte som Unix-kommandoar, som kommuniserer gjennom logiske røyr («pipes»).
Maskinomsetjinga i Apertium er regelbasert, med overføring av grammatisk struktur. Det finst reglar for analyse, generering og annotasjon av morfologi og syntaks. Overføring av struktur kan skje med overflatisk «chunking» eller rekursive reglar basert på kontekstfri grammatikk, men det er ingen gjennomgripande djup semantisk analyse. Det er ingen interlingva involvert, så nye omsetjingsretningar/språkpar krev ei omsetjingsordbok mellom kvart språkpar (ikkje berre mellom det nye språket og eit generelt mellomspråk). Der det finst ordbøker mellom språk A og B og B og C, finst verktøy[5] som genererer ei ordbok frå A til C. I tillegg må sjølvsagt kvart språk ha sine einspråklege ressursar (ordbøker, reglar, statistikk).
Apertium nyttar endelege tilstandsautomatar for analyse/ordklassetagging (kor ordformer blir markert med kanskje fleirtydige oppslagsformer og ordklassar), generering (ordklassetagging «baklengs»), omsetjing av analyserte enkeltord og leksikalsk seleksjon (dvs. tydingsdisambiguering for tydingsskilnader som er viktige for omsetjinga). Ein skjult Markov-modell blir nytta for disambiguering av ordklasser, men mange språk nyttar i tillegg føringsgrammatikk for regelbasert ordklassedisambiguering.
Språkstøtte
endreMellom dei språka som har publiserte språkpar i Apertium finn me nynorsk–bokmål, islandsk-svensk-dansk, dei romanske språka i Spania, kastillansk, katalansk, aragonsk og galisisk; engelsk, portugisisk, fransk, oksitansk, italiensk, indonesisk-malayisk, esperanto, bretonsk, walisisk, serbo-kroatisk–makedonsk–bulgarsk, kasakhisk-tatarsk, rumensk.[6]
Maskinomsetjing av norske språk
endreInnanfor Apertium-ramma er det sett i gang arbeid med maskinomsetjing mellom nynorsk og bokmål, apertium-nno-nob,[7] nyaste publiserte utgåve kan testast på heimesida deira. I tillegg er Giellatekno ved Universitetet i Tromsø involvert i maskinomsetjing mellom samiske språk og mellom anna norsk. Ein omsetjar frå nordsamisk til bokmål er allereie publisert.
Brukargrensesnitt
endreSidan omsetjingspar i Apertium er definerte som Unix-røyr, kan ein enkelt omsetja til dømes fil.txt frå bokmål til nynorsk i ein terminal ved å skriva apertium nob-nno < fil.txt
, men det finst meir grafiske brukargrensesnitt som er meint for vanlege brukarar. Fleire nettstader har Apertium installert, t.d. heimesida apertium.org og sida til Giellatekno ved UiT, jorgal.uit.no. For GNU/Linux og Mac OS X finst programmet apertium-tolk
som omset medan du tastar, i tillegg til program som er spesifikt meint for omsetjing av undertekster til film og TV-seriar. Ein del tredjepartsprogram meint for omsetjarar (til dømes OmegaT, pology og Virtaal) kan bruka apertium til å gi omsetjingsforslag. For Android-baserte einingar finst ein app som kan omsetja utan nettilgang (men berre for dei språkpara som berre brukar modular som er porterte til Java).
Kjelder
endre- ↑ https://github.com/apertium/apertium/releases/tag/v3.9.4; utgjevingstidspunkt: 28. desember 2023.
- ↑ «Millionar til nynorskrobot og fleire språktiltak», LNK-nytt, 7. oktober 2020, henta 8. mars 2021
- ↑ Kulturdepartementet (7. oktober 2020), «11,5 millionar meir til språk i 2021», Regjeringa.no, henta 8. mars 2021
- ↑ Bhattacharjee, Runa (4. november 2014), «Announcing the second version of the Content Translation tool», Diff (på engelsk), henta 8. mars 2021
- ↑ Apertium Crossdics gjer omsetjingsordbøker transitive.
- ↑ Oppdatert liste over publiserte språkpar i Apertium
- ↑ Norske språkpar i Apertium
Bakgrunnsstoff
endre- Apertium.org – heimeside (kor du kan prøva nyaste utgåve av nynorsk–bokmål)
- Apertium.org BETA – ferske utviklingsversjonar av alle språkpar i Apertium
- Jorgal og Tolkimine – samiske/norske/finske språkpar utvikla av Giellatekno
- Apertium-wikien
- Norske språkpar i Apertium (utviklingsinformasjon)
Litteratur
- Corbí-Bellot, M. et al. (2005) «An open-source shallow-transfer machine translation engine for the romance languages of Spain» i Proceedings of the European Association for Machine Translation, 10th Annual Conference, Budapest 2005, s. 79-86
- Armentano-Oller, C. et al. (2006) «Open-source Portuguese-Spanish machine translation» i Lecture Notes in Computer Science 3960 [Computational Processing of the Portuguese Language, Proceedings of the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006], s. 50-59.
- Unhammer, K.B. og Trosterud, T. (2009) «Reuse of Free Resources in Machine Translation between Nynorsk and Bokmål» i Proceedings of the First International Workshop on Free/Open-Source Rule-Based Machine Translation, s. 35–42