Neuronsko strojno prevođenje za hrvatski kao ciljni jezik (NEUMATRAC)

Lokalizacija i prevođenje jedna su od najunosnijih industrija modernog doba. Jezične usluge općenito već dugi niz godina pokazuju trend snažnog rasta. Povećanjem broja korisnika Interneta i eksplozijom dostupnog sadržaja premašeni su ljudski prevoditeljski kapaciteti pa se sve više nade polaže u prevoditeljske tehnologije. Međujezične razlike i specifičnosti dodatno doprinose rastu broja istraživanja usmjerenih k razvoju sustava za strojno prevođenje. Iako su neuronske mreže prisutne kao komponenta u modelima za statističko strojno prevođenje već dulji niz godina, tek u novije vrijeme, s porastom računalne snage, pojavili su se neuronski modeli strojnog prevođenja. U posljednje dvije godine duboko učenje kao podskup metoda strojnog učenja pokazalo je veliki potencijal u području strojnog prevođenja. Kako bi se uočili najvažniji problemi i pronašao način za unaprjeđenja strojnog prevođenja, posebice s obzirom na specifičnosti pojedinog jezičnog para, od velikog je značaja detaljna analiza pogrešaka koja otkriva jake strane nekog sustava, ali i problematična područja.

U okviru predloženog istraživanja izradit će se sustav za neuronsko strojno prevođenje s engleskog na hrvatski, a u svrhu usporedbe i sustav za statističko strojno prevođenje te faktorska varijanta navedenog sustava. Zbog specifičnosti englesko-hrvatskog jezičnog para, poseban fokus stavit će se na prevođenje negacija, prijedloga, -ing oblika i homograma, te na padeže, konjugacije i pomoćne glagole, a u to svrhu kreirati će se prikladni skupovi za ispitivanje. Vrednovanje kvalitete prijevoda razvijenih sustava izvršit će se, osim pomoću najčešće korištenih automatskih metrika (BLEU, Meteor, hTER), također i pomoću detaljne analize pogrešaka u skladu s MQM okvirom. Rezultati analize pogrešaka usporedit će se s rezultatima automatske klasifikacije pogrešaka kako bi se dobio bolji uvid i kako bi se u budućim istraživanjima mogla izbjeći vremenski zahtjevna ljudska evaluacija. Temeljeno na rezultatima istraživanja, predložit će se i primijeniti tehnike predobradbe podataka i usporediti utjecaj na analizirane aspekte.

Učenje temeljeno na pogreškama i unaprjeđenje strojnog prevođenja za hrvatski jezik (ELEMATIC)

Potrebe za prevođenjem rastu svakodnevno. Zbog pomanjkanja dostupnih ljudskih prevoditelja ili zbog prekratkih rokova za dovršavanje prijevoda, sve češće se pribjegava korištenju strojnog prevođenja tekstova koje prevoditelji potom uređuju za objavu. Iz navedenih razloga, kao i zbog jezične raznolikosti, broj istraživanja usmjerenih k razvoju sustava za strojno prevođenje u posljednjim godinama raste eksponencijalno. Primjerice, samo u Europskoj Uniji koja ima 24 službena jezika, potrebno je pokriti 552 prijevodna para. U svrhu detekcije najvažnijih problema i unaprjeđenja strojnog prevođenja, za svaki pojedini od navedenih jezičnih parova potrebno je izvršiti detaljnu analizu pogrešaka. Analiza pogrešaka odnosi se na identifikaciju i klasifikaciju pojedinih pogrešaka u strojno prevedenom tekstu, tj. to je način kvalitativnog vrednovanja sustava za strojno prevođenje. Takva analiza otkriva jake strane nekog sustava, ali i problematična područja. Sustavna analiza pogrešaka za strojne prijevode koji obuhvaćaju hrvatski kao izvorni ili ciljni jezik dosad nije napravljena. Istraživanje će, uz provjeru sveobuhvatnosti i odabir ili proširenje najprikladnije taksonomije, obuhvatiti nekoliko aspekata analize pogrešaka, poput koje pogreške sustava za strojno prevođenje imaju najveći utjecaj na percepciju prijevoda i kakav utjecaj razne vrste pogrešaka imaju na uređivanje strojno prevedenih tekstova, a sve s fokusom na hrvatski jezik. Pritom će se izraditi smjernice za uređivanje strojno prevedenih tekstova i smjernice za analizu pogrešaka u takvim sustavima kako bi analiza bila što objektivnija. Povrh svega, istražit će se utjecaj prozodije, MSD oznaka i integracije dvojezičnog rječnika u sustav za statističko strojno prevođenje za hrvatski jezik u svrhu unaprjeđenja postojećih sustava te će se nove inačice sustava usporediti s ostalim besplatno dostupnim sustavima za englesko-hrvatski i hrvatsko-engleski jezični par.