Když chtějí překladatelské firmy převést text do jiného jazyka, nepřekládají jej vždycky celý, ale využívají takzvané překladové paměti. Odborníci z Fakulty informatiky MU se proto teď snaží výrazně zvýšit jejich výtěžnost.
Překladové paměti jsou rozsáhlé databáze přeložených zeditovaných a schválených vět. Části nových dokumentů je s jejich pomocí možné převést do jiného jazyka pomocí automatického vyhledávání shodných vět či jejich částí. Pro překlad jsou zpravidla využitelné věty se shodou nad 85 procent, experti z fakulty informatiky však nyní ve spolupráci s jednou z překladatelských agentur pracují na systému, který bude fungovat ještě lépe.
„Současné překladové systémy hledají v databázi shodné věty nebo její části, pracují ale s řetězci. My jdeme trochu jinou cestou. Náš program rozpozná strukturu textu, umí určit sloveso, podmět, fráze a rozpozná i vazby mezi nimi. Navrhuje pak překlady těchto celků, o které rozšíří stávající překladovou paměť, a tím zvýší její účinnost,“ popsal princip vyvíjeného softwaru Aleš Horák z centra zpracování přirozeného jazyka. Obohacená databáze se vytvoří pro každý nový dokument.
Myšlenku začali informatici rozvíjet zhruba před třemi lety. „Ukázalo se, že systém potenciál má, v první fázi nabízel dvouprocentní vylepšení překladové paměti proti používané databázi. Pro firmu, se kterou jsme spolupracovali, by to mimo jiné znamenalo asi milionovou roční úsporu nákladů,“ uvedl Horák.
Aby si výzkumníci mohli zažádat o grant na další rozvoj systému, potřebovali své původní odhady zpřesnit. Využili na to podporu od Centra pro transfer technologií MU na takzvané proof of concepts, což jsou peníze sloužící právě k ověření či dovyvinutí technologií s komerčním potenciálem. Přesně to potřebovali, a podařilo se jim tak zpřesnit možnosti zvýšení výtěžnosti překladových pamětí na pět procent.
Horák zdůraznil, že kromě zvýšení účinnosti je nutné dbát také na kvalitu překladu. „Dělali jsme si odhady a zjistili jsme, že optimální zvýšení výtěžnosti při zachování vysoké kvality překladu je mezi deseti a dvaceti procenty,“ nastiňuje další možné posuny výzkumník.
Odborníci teď chtějí na vývoji systému spolupracovat i s dalšími firmami. Nástroj pro zlepšení výtěžnosti překladových pamětí by pak měl být podle Horáka volně přístupný.