Informacijos šaltinis: UAB “Tilde informacinės
technologijos”
Interneto tinklapyje http://mvlab.lki.lt jau
prieinama bandomoji mašininio vertimo sistema, galinti versti tekstus iš
lietuvių kalbos į anglų. Vėliau bus galima versti tekstus ir iš anglų kalbos į
lietuvių. Savo jėgas šiame projekte suvienijo Lietuvių kalbos institutas ir
kalbinių technologijų plėtojimu užsiimanti bendrovė “Tilde informacinės
technologijos” (“Tilde IT”).
Šiuo metu internete yra dvi laisvai prieinamos
mašininio vertimo sistemos, galinčios versti iš anglų kalbos į lietuvių, ir
viena – iš lietuvių į anglų. Lietuvių kalbos mašininio vertimo sistemos yra
pagrįstos taisyklių arba statistiniu vertimo metodu. Pirmasis analizuoja
tekstus naudodamas taisykles ir algoritmus, antrasis – remiasi tekstais,
išverstais į skirtingas kalbas. Kuo dvikalbių tekstų yra surinkta daugiau, tuo
statistinis vertimas būna sklandesnis ir kokybiškesnis.
Naujos mašininio vertimo sistemos kūrėjai
įsitikinę, kad geriausių vertimo rezultatų galima pasiekti apjungus abu metodus
ir panaudojus ontologijų kalbą. Ontologijos – tai savotiškos žinių duomenų
bazės. Jų pagalba vertimo sistema sugeba įvertinti ir suprasti kontekstą, todėl
vertimo sistemai lengviau parinkti teisingą žodžio prasmę, jei jis jų yra
kelios. Pavyzdžiui, priklausomai nuo konteksto angliškas žodis
“Georgia” gali būti verčiamas kaip “Gruzija” ir kaip
“Džordžija” (JAV valstija), “oil” – gali būti ir “aliejus”,
ir “nafta”. Ontologijų kalbą, padėsiančią išvengti žodžių
daugiaprasmiškumo, tyrinėja bendrovė “Tilde IT” drauge su partneriais
iš Turkijos, Švedijos ir Olandijos.
Lietuvių kalbos institutas sistemina ir
skaitmenina įvairius lietuvių kalbos išteklius. Įvairūs lietuviški tekstai,
vietovardžių žodynai yra reikalingi, kad mašininio vertimo sistema galėtų
patikrinti žodžių ar jų junginių taisyklingumą, ar jie yra vartojami mūsų
kalboje.
“Džiugu, kad savo darbu prisidedame prie
šiuolaikinių kalbinių technologijų kūrimo. Tikiu, kad šis mūsų darbas bus itin
naudingas. Žmonės galės kur kas greičiau rašyti tekstus anglų kalba, o ateityje
ir angliškai nemokantys žmonės nesunkiai supras tekstus užsienio kalba”, –
džiaugiasi Lietuvių kalbos instituto direktorė Jolanta Zabarskaitė.
Šiuo metu naujos mašininio vertimo sistemos
tikslumas siekia 30,3 procentus. Planuojama, kad ateityje ji vers tekstus 60
procentų tikslumu.
Šiandien internete prieinama mašininio vertimo
sistemos beta versija nėra galutinis Lietuvių kalbos instituto ir “Tilde
IT” darbo rezultatas, todėl jos kūrėjai perspėja, kad kol sistema yra
kuriama ir tobulinama, dviprasmiškai išverstų žodžių gali pasitaikyti. Todėl iš
pradžių patiems vartotojams gali tekti šiek tiek pasikoreguoti išverstą tekstą.
Kadangi mašininio vertimo sistemos kūrimas yra ilgas ir nenutrūkstamas
procesas, kūrėjai negali tiksliai pasakyti kada visiškai baigs mašininio
vertimo sistemos kūrimo darbus.
“Šiuo metu atliekama daug įvairiausių
mokslinių tyrimų, kurie turėtų mums padėti sukurti gerokai sklandžiau
verčiančią sistemą. Dabar kaupiamos žinios, kurių rezultatą pamatysime šiek
tiek vėliau”, – paaiškina J. Zabarskaitė.
“Tilde IT” direktorius Vaclovas
Pranskūnas norėtų į kūrimo procesą įtraukti kuo daugiau visuomenės.
“Galbūt bandysime sukurti specialų internetinį žaidimą, susijusį su
lietuvių kalba. Jį žaisdami žmonės padėtų kaupti žodžių duomenų bazę, kurią
būtų galima panaudoti mašininio vertimo sistemos kūrimo procese. Nesinori, kad
tai būtų vien Lietuvių kalbos instituto ir mūsų projektas. Gerai verčianti
mašininio vertimo sistema reikalinga daugeliui”, – įsitikinęs V.
Pranskūnas.
Skaičiuojama, kad per trejus metus į šios
sistemos kūrimą bus investuota apie 7 mln. litų. Įvairių Europos Sąjungos fondų
lėšos sudarys apie 70 procentų.
Prieš
daugiau nei ketverius metus informacinių technologijų bendrovė “Tilde
IT” sukūrė pirmąją šalyje automatizuotą vertimo įrankį “Vertimo
vedlys”, kuris palengvina interneto puslapių ir elektroninių laiškų
skaitymą užsienio kalba – išverčia vartotojo pasirinktus žodžius ar jų
junginius. “Vertimo vedlys” buvo mašininio vertimo sistemos kūrimo
darbų užuomazga.