Pomurska obzorja 2/ 2015/ 4     |  15 
  
Tehnika 
Mirjam Sepesy Maučec* 
Evalvacija avtomatskih prevodov v 
projektu SUMAT 
 
1. Uvod  
Obseg multimedijskih vsebin, ki jih ponujajo različni viri, 
raste izredno hitro. Podnaslavljanje je priljubljen način za 
posredovanje tujejezičnih multimedijskih vsebin v veliko 
evropskih državah in za večino žanrov[1]. Vendar se 
podnaslavljanje hkrati srečuje z določenimi problemi, kot so 
kratki časovni roki, visoki stroški in z njimi povezana vprašljiva 
kvaliteta podnapisov. Na podlagi tega se je razvila ideja projekta 
SUMAT, vključiti tehnologijo statističnega strojnega prevajanja 
v prevajalski proces in s tem olajšati delo prevajalcu, predvsem 
pa skrajšati čas, potreben za izdelavo prevoda.  
Statistično strojno prevajanje se je skozi številne raziskave 
pokazalo kot najučinkovitejši pristop k avtomatskemu 
prevajanju. Razloga za njegov uspeh sta dva. Prvi je velika 
količina jezikovnega gradiva, ki je na voljo v elektronski obliki 
in predstavlja osnovo statističnega prevajanja. Drugi razlog pa 
je, da za razvoj prevajalnika ni potrebno poglobljeno znanje o 
jezikih, med katerimi prevajamo. Zahtevnost strojnega 
prevajanja je odvisna od žanra in domene besedil, ki jih 
prevajamo. Sprva je kazalo, da je prevajanje podnapisov, s 
katerim smo se ukvarjali v projektu SUMAT, za statistično 
strojno prevajanje zelo hvaležno področje, saj so povedi 
praviloma kratke. Toda podnapisi prinašajo tudi številne 
probleme. Ker gre za podnaslavljanje video vsebin, so nekateri 
problemi blizu problemom govorjenega jezika. Še večji problem 
pa je, da so se mora dolžina besedila podrejati dolžinam 
podnapisa, kar privede do številnih postopkov krajšanja 
izvornega besedila. 
Projekt SUMAT smo aprila 2014 zaključili. V nadaljevanju 
prispevka predstavljamo njegove rezultate. Razvili smo 
prevajalnike za 14 jezikovnih parov oz. smeri prevajanja. 
Vključeni so bili naslednji jeziki: angleščina, španščina, 
francoščina, nemščina, portugalščina, švedščina, srbščina in 
slovenščina. V zaključni fazi projekta nas je zanimala predvsem 
kvaliteta prevodov, ki jih generirajo prevajalniki, in 
produktivnost prevajalca, če le-ta pri svojem delu uporablja 
avtomatske prevode.  
2. Gradivo v projektu SUMAT 
Pomemben korak pri izdelavi sistema za strojno prevajanje 
podnapisov je izdelava vzporednega korpusa podnapisov, 
potrebnega za učenje prevajalnika. Izvorno gradivo so iz svojih 
arhivov posredovala tri mednarodna podjetja, ki so 
specializirana za prevajanje podnapisov. Podjetja so 
zagotavljala, da gre za visoko kvalitetne podnapise, saj je vsak 
prevod pregledan na več nivojih, preden je posredovan 
naročniku. Poleg datotek s prevodi smo zbirali tudi samo 
enojezične datoteke, saj je pomembna komponenta prevajalnika 
tudi jezikovni model. Datoteke so pripadale različnim žanrom, 
kot so dnevno-informativne oddaje, serije, dokumentarni filmi 
ipd. Gradivo smo na koncu dopolnili še z materialom, ki smo ga 
zbrali iz prosto dostopnih spletnih virov[2]. Količina zbranega 
gradiva je zelo variirala glede na jezikovni par. Največ gradiva 
smo zbrali za par angleščina – nemščina, najmanj pa, skladno s 
pričakovanji, za par slovenščina – srbščina. Gradivo je potrebno 
ustrezno obdelati, preden ga lahko uporabimo za učenje 
prevajalnikov. Predpriprave izvornega gradiva vključujejo 
naslednje korake: pretvorbe v enoten format in enotno kodiranje 
znakov, identifikacijo jezika v datotekah, poravnavanje datotek, 
tokenizacijo, razcep po povedih in poravnavanje povedi ali 
podnapisov [3, 4].  
3. SUMAT prevajalniki 
Prevajalniki SUMAT so statistični prevajalniki s klasično 
strukturo. Kot osnovna enota prevajanja se običajno uporablja 
poved, v projektu pa je bilo opravljenih nekaj preliminarnih 
testov, ki so vodili v odločitev, da kot osnovno enoto uporabimo 
podnapis. Vsak prevajalnik sestavljajo 3 komponente: model 
prevajanja, model preurejanja in jezikovni model. Prvi dve 
komponenti smo zgradili s pomočjo Mosesovih skript, ki smo 
jih uporabili na poravnanem gradivu [5]. Jezikovni model pa 
POVZETEK 
V članku bomo predstavili zaključno fazo projekta SUMAT, ki smo ga pregledno predstavili na konferenci PAZU leta 2011. V 
projektu smo razvili avtomatske prevajalnike podnapisov za 14 jezikovnih parov. Prevajanje podnapisov je kompleksna naloga, ki 
se v veliki meri razlikuje od drugih oblik prevajanja. Avtomatski prevajalniki, ki smo jih razvili v projektu, so danes v obliki spletne 
storitve na voljo profesionalnim prevajalcem kot pripomoček pri njihovem delu.  V prispevku se bomo posvetili obsežni evalvaciji 
kvalitete prevodov, ki smo jo opravili ob sodelovanju profesionalnih prevajalcev. Izpostavili bomo najpogosteje odkrite napake v 
prevodih in primerjali kvaliteto prevodov za različne jezikovne pare. 
Ključne besede: statistično strojno prevajanje, podnapisi, evalvacija, kvaliteta, produktivnost. 
*
Fakulteta za elektrotehniko, računalništvo in informatiko UM, 
Smetanova 17, 2000 Maribor 
E-naslov: mirjam.sepesy@um.si  
Mirjam SEPESY MAUČEC: EVALVACIJA AVTOMATSKIH PREVODOV V PROJEKTU SUMAT 
16  |     Pomurska obzorja 2/ 2015/ 4     
smo zgradili z orodjem SRI LM [6] in pri tem uporabili 
enojezične korpuse. 
Učni vzporedni korpus izhaja iz različnih virov, zato smo 
modele prevajanja in preurejanja gradili za vsak vir posebej in 
jih potem sestavili po principu adaptacije na domeno. Kot vzorec 
ciljne domene smo uporabili razvojno množico, ki je obsegala 
2000 podnapisov. 
Uporabili smo 3-gramski jezikovni model z Good-
Turingovim odštevanjem in sestopanjem po Katz. Uteži 
komponent prevajalnika smo optimirali po MERT [7] na 
razvojni množici 2000 podnapisov, ki smo jo uporabili tudi za 
sestavljanja komponent modelov prevajanja in preurejanja. 
Prevajalnike smo v nadaljevanju na različne načine še 
izboljševali. Za določene jezikovne pare se je pokazalo, da je 
smiselno gradivo dopolniti z obliko-skladenjskimi lastnostmi 
besed. To je veljalo predvsem za visoko pregibne jezike, med 
katere sodita srbščina in slovenščina. 
4. Evalvacija prevodov 
Evalvacijo avtomatskih prevodov smo izvedli v dveh fazah. 
Cilj evalvacije v prvi fazi je bil izboljšati sistem, v drugi fazi pa 
oceniti produktivnost prevajalskih procesov. V obe fazi 
evalvacije so bili vključeni profesionalni prevajalci. 
Predstavniki prevajalskih podjetij so najprej pripravili testne 
vzorce za evalvacijo. Vzorci so bili sestavljeni iz dokumentov 
realnega okolja. Vključevali so podnapise filmov, pogovornih 
oddaj, dokumentarcev ipd. Dokumente smo najprej prevedli z 
uporabo ustreznih strojnih prevajalnikov. Potem smo jih 
posredovali prevajalcem, ki so: 
 popravili prevode do "običajnega" standarda kakovosti, 
 ocenili kvaliteto prevoda: od 1 (neuporaben prevod) do 5 
(brezhiben prevod),  
 skladno s podano taksonomijo označili pogoste napake 
(v prevodih, ocenjenih s 3 ali več) in 
 izpolnjevali vprašalnik, v katerem so podali tudi 
predloge za izboljšanje kakovosti prevodov. 
Dokumente s popravljenimi prevodi smo uporabili kot 
referenčne dokumente, s katerimi smo primerjali izvorne 
avtomatske prevode in ocenjevali, kako podobni oz. različno so 
si. 
4.1 Avtomatska evalvacija 
Najprej smo izvedli avtomatsko evalvacijo, v kateri smo 
prevajalnike vrednotili z metrikami avtomatske evalvacije. 
Zanimal nas je tudi delež podnapisov, ki se 100% ujemajo z 
referenco (Equal). Rezultati evalvacije so prikazani na sliki 1. 
Najboljši rezultat je bil dosežen za prevajanje iz francoščine v 
angleščino. Pri vrhu je tudi prevajanje med slovenščino in 
srbščino. Najslabši rezultat je bil dosežen za prevajanje iz 
angleščine v nemščino in iz španščine v angleščino. Znano je, da 
je strojno prevajanje v nemščino za avtomatske prevajalnike trd 
oreh, medtem ko je bil slab rezultat za španščino veliko 
presenečenje. 
 
 
Zanimal nas je tudi delež podnapisov, pri katerih je, da 
dosežemo ujemanje, potrebnih največ 5 korakov preurejanja 
(Lev5). Rezultati so na sliki 2. Vrstni red jezikovnih parov se je 
nekoliko spremenil, čeprav najboljši in najslabši pari ostajajo 
isti. 
4.2 Rangiranje prevodov 
Prevajalci so vsak podnapis v strojnem prevodu rangirali 
glede na kvaliteto oz. zahtevnost popravljanja. Pri tem smo 
uporabili skalo, definirano v “WMT 2012 Shared Task on MT 
quality estimation”, po kateri je vsak podnapis rangiran z 
vrednostjo od 1 do 5. Ocena 1 pomeni neuporaben in 
nerazumljiv prevod, ocena 5 pa brezhiben prevod, ki ne 
potrebuje nobenega popravka. 21% prevodov je dobilo oceno 3, 
26% prevodov oceno 4 in 31% prevodov oceno 5. Oceno 1 ali 2 
je dobilo le 22% prevodov.   
4.3 Klasifikacija napak 
Prevajalci so napake v prevodih klasificirali v razrede: 
 agr: slovnično neujemanje,  
 miss: manjka polnopomenska beseda ali odsek, 
 order: napačni vrstni red besed, 
 phrase: večbesedna zveza napačno prevedena kot ločene, 
nepovezane besede, 
 cap: napačen zapis velike/male črke, 
0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00
ES2EN
EN2DE
EN2FR
EN2PT
EN2ES
DE2EN
EN2SV
SL2SR
EN2NL
SR2SL
FR2EN
Equal
Equal
Slika 1. Rezultati metrike Equal za izbrane  jezikovne pare. 
0,00 10,00 20,00 30,00 40,00 50,00 60,00
ES2EN
EN2DE
EN2FR
EN2PT
EN2SV
EN2ES
DE2EN
EN2NL
SR2SL
FR2EN
SL2SR
Lev5
Lev5
Slika 2. Rezultati metrike Lev5 za izbrane jezikovne 
pare. 
Mirjam SEPESY MAUČEC: EVALVACIJA AVTOMATSKIH PREVODOV V PROJEKTU SUMAT 
Pomurska obzorja 2/ 2015/ 4     |  17 
 punc: napačno ločilo, 
 spell: napačno črkovanje, 
 length: predolg prevod glede na omejeno dolžino 
podnapisa, 
 trans: napačen prevod. 
Izkazalo se je, da je največ napak pripadalo razredu trans, 
torej napačni prevod. Veliko napak se je uvrstilo tudi v razreda 
agr in miss. Na osnovi klasifikacije napak smo sistemu dodali 
nekaj korakov postprocesiranja in tako izboljšali prevajalnike. 
4.4 Subjektivne ocene prevajalcev 
Prevajalci so na koncu izpolnili še vprašalnik, v katerem so 
izrazili svoje subjektivno mnenje o kvaliteti prevodov in podali 
ideje za popravke. Če se je izkazalo, da so popravki izvedljivi 
(to pomeni, da jih lahko implementiramo kot dodaten korak 
avtomatskega popravljanja prevodov), smo jih upoštevali. 
Reševanje določenih napak je bilo pogojeno z uporabo dodatnih 
jezikovnih virov, ki jih zaradi komercialne naravnanosti projekta 
nismo dodajali, saj je za vsak uporabljen vir potrebno dovoljenje 
za komercialno rabo. 
5. Merjenje produktivnosti 
V drugi fazi evalvacije nas je zanimalo, ali avtomatski 
prevodi skrajšajo čas tvorjenja prevodov. Primerjali smo čas, ki 
ga potrebuje prevajalec, če neposredno prevaja dokument iz 
izvornega v ciljni jezik, s časom, ki ga potrebuje za popravljanje 
strojnih prevodov. Menimo, da je tovrstna primerjava zelo jasen 
in neposreden pokazatelj uporabnosti sistemov strojnega 
prevajanja.  
Pred izvedbo drugega dela evalvacije smo v sistem 
prevajanja vpeljali še dodaten postopek filtriranja strojnih 
prevodov, v katerem smo izločili prevode slabe kvalitete. V 
razdelku 4.2 smo opisali rangiranje prevodov glede na kvaliteto. 
Na osnovi teh ocen smo učili binarni klasifikator, ki prevode 
klasificira v dva razreda, v razred dobrih in razred slabih 
prevodov. Za učenje klasifikatorja in klasifikacijo smo uporabili 
orodje QuEst, ki je podrobneje opisano v [9]. Strojne prevode, 
ki jih je klasifikator označil kot slabe, smo odstranili, kar je 
pomenilo, da jih mora prevajalec tvoriti iz podnapisa v izvornem 
jeziku. Ta korak smo dodali zato, ker je popravljanje slabih 
prevodov bolj zamudno kot neposredno prevajanje izvornega 
dokumenta. 
Za vsak jezikovni par oz. za vsako smer prevajanja sta 
sodelovala dva profesionalna prevajalca. Vsak prevajalec je 
tvoril tri datoteke. V prvi je prevajal iz izvornega jezika, v drugi 
je popravljal strojne prevode in v tretji je popravljal filtrirane 
strojne prevode. Pri tem je vsak prevajalec uporabil programsko 
okolje, ki ga tudi sicer uporablja pri svojem delu. Razlika je bila 
le v tem, da se je v ozadju meril čas efektivnega dela. Rezultati 
so zbrani na sliki 3. Vidimo, da je najbolj učinkovito 
popravljanje avtomatskih prevodov jezikovnega para 
slovenščina – srbščina. Razlog je najverjetneje velika podobnost 
jezikov. Produktivnost se je izrazito izboljšala tudi pri 
prevajanju iz angleščine v francoščino in iz angleščine v 
nizozemščino. Uporaba strojnih prevodov pri tvorjenju 
prevodov željene kakovosti se je izkazala kot neučinkovita pri 
prevajanju iz španščine v angleščino in pri prevajanju iz 
angleščine v nemščino. Slab rezultat za ta jezikovna para je bil, 
glede na rezultate evalvacije v prvi fazi, pričakovan. 
Omenimo še en vidik uporabe strojnih prevodov. Za 
prevajalce popravljanje ni najbolj »všečen« proces in nekateri 
do tega čutijo določen odpor. V tem oziru so lahko prikazani 
rezultati do neke mere popačen prikaz, subjektivna percepcija 
strojnega prevajanja profesionalnih prevajalcev. 
6. Zaključek 
V članku smo predstavili rezultate projekta SUMAT, 
katerega namen ni bil strojno tvoriti brezhibne prevode, ampak 
prevajalcu ponuditi prevode, ki mu skrajšajo čas, potreben za 
prevajanje. Glede na rezultate evalvacije smo zaključili, da so 
strojni prevodi lahko učinkovit pripomoček prevajalcev. 
Zaenkrat je popravljanje strojnih prevodov še relativno 
nepoznan postopek med prevajalci. Da bi bilo strojno prevajanje 
pozitivno sprejeto med njimi, bi bilo treba učenje tehnik 
popravljanja vključiti tudi v učne procese v prevajalstvu. V tej 
smeri potekajo aktivnosti v smislu izvajanja tečajev popravljanja 
na različnih univerzah Evrope. 
Zahvala 
Avtorica članka se za sodelovanje pri projektu zahvaljuje 
sodelavcem Laboratorija za digitalno procesiranje signalov, 
FERI, UM, ki so del slovenske skupine v projektu SUMAT: 
Marko Presker, Matej Rojc, Darinka Verdonik, Damjan Vlaj in 
Danilo Zimšek. Zahvala gre tudi koordinatorici projekta Arantzi 
del Pozo, ki nas je povabila k sodelovanju. 
Literatura 
1. European Commision (2010). Audiovisual Media Services 
Directive (AVMSD – 2010/13/EU). Official Journal of the 
European Union, 10 March 2010. 
2. Tiedemann, J. (2009). News from OPUS – A Collection of 
Multilingual Parallel Corpora with Tools and Interfaces. In: 
N. Nicolov, K. Bontcheva, G. Angelova,, R. Mitkov (eds.): 
Recent Advances in Natural Language Processing (vol. V) 
(pp. 237--248). Amsterdam, Philadelphia: John Benjamins. 
3. Varga, D., L. Németh, P. Halácsy, A. Kornai, V. Trón, V. 
Nagy (2005). Parallel corpora for medium density 
languages. In: Proceedings of the RANLP 2005 (pp. 590--
596). 
Slika 3. Rast produktivnosti pri uporabi strojnih prevodov v 
prevajalskem procesu. 
Mirjam SEPESY MAUČEC: EVALVACIJA AVTOMATSKIH PREVODOV V PROJEKTU SUMAT 
18  |     Pomurska obzorja 2/ 2015/ 4     
4. Maučec, M. S., Presker, M., Zimšek, D., Rojc, M., Vlaj, D., 
Verdonik, D., Kačič, Z. Izdelava slovensko-srbskega 
vzporednega korpusa podnapisov za razvoj strojnega 
prevajanja v projektu SUMAT. Zbornik Osme konference 
Jezikovne tehnologije, oktober 2012, str. 167-172. 
5. Moses - statistical machine translation system, 
http://www.statmt.org/moses/, (dostop 24.10.2011). 
6. Stolcke, A., 2002. SRILM: an extensible language 
modeling toolkit. Proceedings of the Int. Conf. on Spoken 
Language Processing, 901–904. 
7. Och, F. J., 2003. Minimum error rate training in statistical 
machine translation, Zbornik 41st Annual meeting of the 
Association for Computational Linguistics, Sapporo, 
Japan. 
8. Papineni, K., Roukos, S., Ward, T., Zhu. W.-J. 2002. 
BLEU: a method for automatic evaluation of machine 
translation. 40th Annual meeting of the Association for 
Computational Linguistics, Philadelphia, 311–318. 
9. Specia, L., Shah, K., de Souza, J. G., Cohn, T., Kessler, F. 
B., 2013. QuEst–a translation quality estimation 
framework. Zbornik 51st Annual meeting of the 
Association for Computational Linguistics : System 
Demonstrations, 79–84.