Jak funguje strojový překlad | Víte...?

Na světě je okolo šesti tisíc jazyků, miliony překladatelů a několik set pokusů o nahrazení překladatele počítačovým programem. Proč nám někdy strojový překlad otevře bránu do světa jiné kultury a jindy na výsledek jen zmateně koukáme?

Současné překladové systémy jsou založeny na statistice. Pro překlad mezi dvěma jazyky jim totiž stačí mnoho textů v obou jazycích (těmto databázím textů se říká jazykový korpus) a několik matematických vzorců. Dvojjazyčné (paralelní) korpusy musí obsahovat stejné texty zarovnané pěkně vedle sebe. Každá věta je spojena se svým překladem. Výpočty pak s určitou pravděpodobností propojí slovo nebo slovní spojení ze zdrojového jazyka se svým protějškem v cílovém jazyce.

Ze zarovnaného paralelního korpusu se systém naučí, jak se slova a slovní spojení nejčastěji překládají. Naučí se překládat anglické slovo what jako co, čem nebo čemu. Každá dvojice je pak správný překlad s určitou pravděpodobností. Ta roste s počtem výskytů stejné dvojice na jiném místě v korpusu a rovněž s výskytem jiných dvojic poblíž. Například pokud se ve větě vyskytuje slovo about na konci, přeloží what raději jako čem než jako co.

Kdo zná anglickou a českou gramatiku, může být pobouřen: Proč programu někdo nevysvětlí skloňování v češtině? Není takové počítání příliš složité? Pro počítače ne, je to právě naopak. Výsledkem učení z paralelního korpusu je velké množství čísel, která o dvojicích slov vyjadřují jejich ochotu být si vzájemně překladem.

Při vytváření cílového textu musíme vzít v úvahu tzv. jazykový model cílového jazyka. Ani v této fázi překladovému programu nevysvětlujeme pravidlo, že předložka je v anglické otázce na konci. Raději mu ukážeme mnoho anglických otázek, ze kterých pravidlo vyvodí sám. Jazykový model zachytí častý výskyt slov vedle sebe a také jejich výskyt v různých částech věty. Systém se naučí, že po slovech what a are bude s velkou pravděpodobností následovat slovo you a na konci věty bude otazník. Výsledkem je přirozeně plynulý text.

Proč překlad někdy nefunguje? Vždy jsme odkázáni na charakter textů v paralelním korpusu a na kvalitu zarovnání. Paralelní korpusy vznikají jen z určitých typů textů přeložených lidmi – z manuálů, firemních webů, článků z Wikipedie, dokumentů z Evropského parlamentu. Např. překlady blogů, diskusí nebo autorských textů jsou vzácné.

Samotné statistické metody navíc ke kvalitnímu strojovému překladu někdy nestačí. Proč překladač Google donedávna překládal Brno jako Bratislava? Nevěděl, že název předkládat nechceme a hledal na webu ekvivalent. Do statistických překladových systémů se proto přidávají různá pravidla, například jména se až na výjimky nepřekládají.

Pro překladače je také oříšek odlišná struktura jazyků. Angličtina nemá téměř žádné změny tvaru slov, čeština má pro každé slovo tvarů mnoho (díky skloňování a časování). Přeložit větu Girls smiled (Dívky se usmály) je pomocí statistiky obtížné. Gramatické vlastnosti obou jazyků je však možné zachytit na abstraktní úrovni. Programu nevysvětlujeme pravidlo shody přísudku s podmětem, ale necháme jej naučit se něco o koncích sloves.

Systémy, které rovnoměrně využívají pravidla i statistiku, se nazývají hybridní. Pro jazykové páry, kde nemáme dost dat pro učení, je hybridní překlad často lepší než samotná statistika. Texty nejsou bez chyb, ale většinou je překlad rámcově správný, o čemž svědčí miliony online překladů denně.

Autorka působí v Centru zpracování přirozeného jazyka Fakulty informatiky MU a vyučuje v Centru počítačové lingvistiky Filozofické fakulty MU.

Překladač, na jehož vytvoření se podílelo Centrum zpracování přirozeného jazyka, se jmenuje PRESEMT.