Jazykové korpusy pomáhají s psaním textů | Víte...?

Píšete článek a nevíte si rady se správnou volbou slov? Je lepší použít sousloví žhavý kandidát nebo horký kandidát? Pomoci vám může software s názvem Sketch Engine, který vyvíjí společnost Lexical Computing ve spolupráci s Centrem zpracování přirozeného jazyka Masarykovy univerzity už přes deset let. Všichni studenti a zaměstnanci mají k tomuto programu, založeném na jazykových korpusech, volný přístup.

Abychom mohli ukázat, co Sketch Engine nabízí a komu může být užitečný, musíme si vysvětlit, co jsou to jazykové korpusy. Jde o rozsáhlé kolekce souvislých textů, které zkoumá takzvaná korpusová lingvistika. Tato disciplína vznikala v souvislosti s vývojem výkonných počítačů od 60. let 20. století, protože až tyto přístroje umožnily masivní databáze textů vytvářet a hlavně prohledávat.

Korpusy mohou být všeobecné nebo specializované například na historický jazyk (korpus staré angličtiny), odborné texty (texty o ochraně životního prostředí), texty jednoho autora (korpus textů Karla Čapka) a podobně. Kromě jednojazyčných korpusů existují i vícejazyčné, díky nimž můžeme sledovat věty ve dvou překladech paralelně zarovnané vedle sebe.

Korpusy a informace z nich jsou základním kamenem statistického zpracování textu. Korpusy najdou uplatnění ve strojovém překladu, inteligentním vyhledávání či určování autorství. Statistické informace se využívají i pro odhalování „skrytých“ vlastností textů. S určitou přesností je možné rozpoznat věk, pohlaví i jméno autora u anonymních textů. Přesnější metody pro češtinu se vyvíjejí ve spolupráci s ministerstvem vnitra v projektu VF20102014003 zaměřeném na extremistické texty.

Jazykovědci na korpusech pozorují, jak lidé jazyk používají. Vyhledávají takzvané konkordance (slovo a jeho okolí), aby našli vzory užití. Například v českých publicistických textech je vidět, že slovo kandidát se často používá s přídavnými jmény horký či žhavý (ale ne rozžhavený, žhnoucí, rozpálený nebo teplý). Taková informace není užitečná jen pro samotné zkoumání jazyka, ale také pro jeho výuku. Dobrá znalost jazyka totiž obnáší i dobrou znalost toho, co je obvyklé.

Zatímco první korpusy obsahovaly kolem milionu pozic (tedy slov, interpunkčních znamének a čísel), současné korpusy jich obsahují až desítky miliard. V milionovém korpusu DESAM je slovo kandidát přítomné 119krát (ve všech tvarech jako kandidáti, kandidátem apod.). Můžeme tedy snadno projít všechny výskyty a sledovat, jak se slovo kandidát chová.

I v miliardových korpusech jsou některá slova velmi vzácná (slov, která jsou v korpusu jen jednou, je v každém velkém souboru okolo 50 %), u běžných slov však zaznamenáme velký počet výskytů. V největším českém korpusu czTenTen (5,4 miliardy pozic) nalezneme slovo kandidát ve všech tvarech skoro 214 000krát. Není tedy v lidských silách procházet všechny výskyty, a proto nastupuje statistika.

Zmiňovaný program Sketch Engine vypočítá slovní profil (takzvaný word sketch), který ukáže, s jakými slovy-partnery se kandidát vyskytuje společně, jak často a v jakých kontextech. Ve slovním profilu je také skóre, které odráží jak četnost slova, tak četnost společných výskytů s partnerským slovem. Důležitou roli ve skóre hraje i ochota obou slov družit se s úplně jinými slovy.

Ze slovních profilů pak dokáže Sketch Engine vypočítat na větších celcích (frázích) dobré partnery. Výsledkem takového výpočtu je tedy Tezaurus, pomocí kterého najdeme významově blízká slova. Automatický generovaný Tezaurus má dvě výhody oproti známým knižním tezaurům: slova jsou seřazena podle skóre, tudíž poskytuje přehled o míře vhodnosti určitého slova. Druhou výhodou je, že Tezaurus zahrnuje i nová slova, která ve slovnících nenajdeme.

Software ale obsahuje i řadu dalších pokročilých funkcí pro práci s vlastními korpusy (automatickou extrakci klíčových slov, subkorpusy podle délky dokumentu či atributů autora) nebo pro práci s vícejazyčnými (paralelními) korpusy. Sketch Engine nabízí v současnosti více než 400 korpusů pro 70 jazyků. Všechny funkce jsou popsány v dokumentaci.

Autorka působí v Centru zpracování přirozeného jazyka Fakulty informatiky MU a vyučuje v Centru počítačové lingvistiky Filozofické fakulty MU.