Sjálfvirk þýðing

Teikning af starfsmanni við tölvu að vinna við þýðingar.

Á reykjavik.is er þýðingarkerfi knúið gervigreind sem er sjálfvirkt frá sjónarhorni þeirra sem setja inn efni. Þannig verða upplýsingar og þjónusta borgarinnar aðgengilegar á ensku fyrir íbúa sem ekki hafa íslensku að móðurmáli. Kerfið hefur verið í stöðugri þróun frá árinu 2020 og nær nú til nánast alls efnis á vef borgarinnar frá fréttum og þjónustusíðum til eyðublaða á Mínum síðum.

Verkefnið

Rúm 20% íbúa Reykjavíkur hafa ekki íslensku að móðurmáli. Fyrir þennan hóp var vefur borgarinnar lengi óaðgengilegur þar sem hefðbundin vélþýðingarþjónusta eins og Google Translate ræður illa við íslensku vegna flókinnar málfræði, sérorða og takmarkaðra þjálfunargagna. Eldri vefur borgarinnar var ekki þýddur á ensku heldur var eingöngu að finna yfirlit yfir helstu þjónustu á enskum sérvef. Markmiðið var að byggja þýðingarkerfi sem næði nálægt mannlegum gæðum en krefðist aðeins eins þýðanda til að viðhalda enskri spegilútgáfu af öllum vefnum. 

Kerfið notar RAT (Retrieval Augmented Translation) sem sameinar stór tungumálalíkön við sérsniðin hugtakasöfn og beygingaruppflettingar. Þannig er tryggt að íðorð stjórnsýslu og sveitarfélaga séu rétt og þýdd með samræmdum hætti í öllu efni. Sem dæmi er grunnskóli alltaf þýddur sem „primary school“ en sjálfvirk kerfi vilja kalla hann „elementary school“ sem nær aðeins yfir yngsta stig. Kerfið samræmir einnig tón og stíl speglaðs efnis. 

Efnið flæðir í gegnum þýðingarpípur og ferlið hefst í Drupal-vefumsjónarkerfinu, næst rennur efnið í gegnum CAT-vélþýðingartól (tölvustudd þýðing) og mállíkön og skilar sér svo aftur inn ensku megin á reykjavíkurvefnum. Þýðandinn sér um að allt flæði sé rétt og yfirfarið en starfsfólk vinnur alfarið á íslensku og þarf ekkert að aðhafast fyrir speglunina. 

Þróun kerfisins

Kerfið hefur þróast verulega frá upphafi:

2020–2023

Vélþýðing með tauganetum (NMT) sem krafðist umtalsverðs yfirlesturs. Stór hluti innsetts efnis var óyfirfarinn og í misjöfnum gæðum. Aðeins var hægt að yfirfara úrval mest lesnu síðanna og speglun var langt frá rauntíma. Einstaka frétt var þýdd.

2024

Skipt yfir í þýðingu knúna stórum tungumálalíkönum (LLM) sem bætti samstundist gæði og minnkaði álag við yfirlestur. Umtalsvart meira efni var þýtt reglulega og fleiri fréttir voru þýddar við birtingu.

2025

Nánast full þýðing á öllu vefefni yfir á ensku að undanskildum fundargerðum og einstaka efnisgerðum. Núna eru þúsundir síðna speglaðar og við þýðum nú einnig efni allra skóla borgarinnar, eyðublöð á Mínum síðum og fleira. Stöðugar umbætur á gæðum byggja á tilraunum með mismunandi líkön, líkanasamsetningar og aðferðir við skipanasmíð og -keðjur (e. prompting).

 

Fólk fylgist með fuglum niðri við Tjörnina í Reykjavík.

Helstu markmið

  • Gera vef borgarinnar aðgengilegan öllum íbúum, óháð tungumáli.
  • Ná gæðum sambærilegum við mannlega þýðingu með hálfsjálfvirkri lausn.
  • Einfalda verkferla þannig að einn þýðandi ráði við allan vefinn.

Árangur

Lestur ensku útgáfunnar hefur vaxið fimmfalt hraðar en íslenska efnisins.

Gæðaeftirlit fer fram með reglulegri úrtakskönnun þar sem þýðingar lausna borgarinnar eru bornar saman við Google Translate og Microsoft Translator sem dæmi. Frá árinu 2024 hefur endurgjöf lesenda verið safnað í gegnum Qualtrics en á hverri síðu ensku útgáfunnar er hliðarflipi þar sem lesendur geta sent beinar athugasemdir um hverja síðu fyrir sig. Af hundruðum þúsunda heimsókna berast minna en ein kvörtun á mánuði um gæði efnis á ensku.

Enska útgáfan þjónar einnig sem hágæða milliliður fyrir frekari vélþýðingu á þriðju tungumál, þar sem þýðing úr ensku er almennt áreiðanlegri en bein þýðing úr íslensku.

 

Séð aftan á mann sem heldur á dreng sem er með íslenska fánann á bakinu.

Helstu niðurstöður

  • Gæði standast samanburð við mannlega þýðingu.
  • Starfsfólk vinnur alfarið á íslensku og þarf ekkert að breyta sínu verklagi.
  • Einn þýðandi ræður við að viðhalda enskri spegilútgáfu af öllum vefnum.
  • Hugtanotkun er samræmd í öllu efni.
  • Umfang þýðinga hefur aukist jafnt og þétt eftir því sem kerfið hefur orðið skilvirkara.

Tungumál og tækni

Kerfið þýðir úr íslensku á ensku. Íslenska tilheyrir smáu málsvæði og hefur fáa mælendur og því er lítið til af íslensku efni (e. low-resource language) miðað við það magn sem er nauðsynlegt fyrir þjálfun mállíkana. Stjórnvöld og einkaaðilar hafa þó lyft grettistaki í söfnun gagna og þróun kerfa undir máltækniáætlun sem við njótum öll góðs af. Þetta verkefni sýnir fram á að markviss vinna með gervigreind getur bætt fyrir skort á þjálfunargögnum og skilað smærri tungumálum sömu þýðingargæðum og þeim stærri.

RAT-aðferðin notar fjölþrepa úrvinnslu: greiningu frumtexta, hugtauppflettingu, þýðingu með tungumálalíkani og síðan aðlögun að stíl og tón. Þetta ferli tryggir að lokaniðurstaðan sé ekki aðeins rétt þýdd heldur einnig á góðri ensku.

Stöðug þróun

Verkefnið er í stöðugri þróun. Næstu skref fela í sér að víkka efnisumfang inn í sérsniðin kerfi borgarinnar og þá ekki aðeins hefðbundnar vefsíður heldur einnig viðbótarefnistegundir í innri kerfum þar sem lengra þarf að teygja sig eftir gögnum.

Með hverri uppfærslu á undirliggjandi tungumálalíkönum, ferlum, innri kerfa og skipana batna þýðingarnar sjálfkrafa. Við munum halda áfram stöðugum tilraunum með þessi líkön, líkanasamsetningar og skipanagerð til þess að auka gæði og umfang enn frekar.