Experti z fakulty informatiky přišli na to, jak na základě délky věty či typických chyb určit pravděpodobného autora anonymního textu na internetu. Nástroj vyvinuli v rámci projektu pro ministerstvo vnitra, které jejich práci ocenilo udělením ceny za mimořádné výsledky v oblasti bezpečnostního výzkumu.
V projektu s názvem Analýza přirozeného jazyka v prostředí internetu vyvíjejí programátoři software pro analýzu webových textů. Primárně se zaměřují na příspěvky psané v češtině, rozeznávat ale umí i angličtinu. Nový program má policii pomoci s odhalováním extremismu na internetu, ale už teď je jasné, že jeho využití bude mnohem širší.
Na vývoji se podílí přes deset pracovníků Centra zpracování přirozeného jazyka Fakulty informatiky MU. Prvním z úspěchů jejich práce je právě vytvoření nástroje pro automatické rozpoznávání stylu pisatele.
„Příklady takových stylových vlastností jsou například délka věty či slov, frekvence slovních druhů, složitost větné struktury, typické chyby a podobně,“ popisuje vedoucí pracoviště Karel Pala. Díky této metodě mohou lidé zjistit, zda dva dokumenty napsal stejný autor, nebo třeba určit nejpravděpodobnějšího autora anonymního dokumentu na základě seznamu známých autorů.
Právě za tyto úspěchy převzali informatici cenu ministra vnitra. „Vyvinutý nástroj poskytuje aktuálně nejlepší výsledky pro češtinu i ve srovnání s jinými slovanskými jazyky,“ vysvětluje další člen výzkumného týmu Aleš Horák.
Oceněním ale práce brněnských informatiků na programu nekončí. „V plánu máme další vývoj, který umožní určit pravděpodobné dosažené vzdělání autora, jeho pohlaví nebo zda jde o překlad z jiného jazyka,“ dodávají Pala a Horák. Ministerstvo vnitra už nyní nový program testuje s dobrými výsledky.