Nový elektronický portál, který shrne veškeré informace o češtině, připravuje více než osm desítek českých i zahraničních lingvistů. Pětiletý projekt za téměř osm a půl milionu korun vede Ústav českého jazyka Filozofické fakulty MU a financuje jej Grantová agentura ČR.
Svým rozsahem unikátní on-line encyklopedie nabídne více než tisíc hesel zachycujících výsledky dosavadního bádání o češtině. „Portál, jehož první verze bude v češtině, nemá být jen jakousi lepší wikipedií. Poskytne velmi komplexní obraz o tom, jak byla čeština popisována a vnímána v různých obdobích a jak ji pojímaly různé lingvistické teorie,“ říká vedoucí celého projektu prof. Petr Karlík z Filozofické fakulty MU.
Encyklopedie tak například ukáže češtinu z nejrůznějších pohledů: v kontaktu s jinými jazyky či jako součást lidského poznávání, jazyka coby jedné z forem lidského jednání v sociální interakci, jako jazyk krásné a vědecké literatury, publicistiky, náboženství administrativy nebo soukromé komunikace. Představí ji i jako jazyk s tisíciletou tradicí a bude také reflektovat změny v současné společnosti, které se do jazyka promítají, jako je třeba evropská integrace, reklama nebo elektronická komunikace. On-line encyklopedie tak bude sloužit nejen jazykovědcům a badatelům v oborech, které s lingvistikou souvisejí – sociologům, psychologům, logikům, historikům, právníkům, literárním vědcům – ale i novinářům, učitelům či vysokoškolským studentům.
Neustále aktualizováno
Hesla budou mít různou strukturu. Ta, která jsou určena pro širokou veřejnost či školy, jsou přizpůsobena tomu, aby je mohli využívat i neodborníci. „To znamená, že jsou zpracovávána tak, aby k jejich pochopení stačilo středoškolské vzdělání a zdravý selský rozum,“ upřesňuje Petr Karlík. Hesla, jež si přečtou spíše vědečtí pracovníci v oblasti lingvistiky a příbuzných oborů, nabídnou komplexní pohled společně s odkazy na vysoce kvalitní odbornou bibliografii. Do té se zájemci dostanou díky jedinému kliknutí, a nebudou ji tak muset vyhledávat v záplavě současné odborné literatury.
Jednotlivé části budou bohemisté průběžně aktualizovat podle nejnovějších poznatků a přidávat další data navázaná na tzv. korpusy, které obsahují stovky milionů slov a spojení současné češtiny, a na nově vznikající databáze, typu World Atlas of Language Structures Online.
Práce odborníků ale neskončí ani po uzavření projektu na konci roku 2015. „Předpokládáme, že budeme o portál neustále pečovat, aby informace nezastaraly. Počítáme i s tím, že vznikne anglická verze, kterou zpřístupníme češtinu a teorie k jejímu poznávání mezinárodní vědecké komunitě, to je také naše povinnost,“ dodává Petr Karlík.
Pohled zvenčí
Práce na elektronické encyklopedii přilákala nebývale vysoký počet lingvistů z prestižních zahraničních univerzit, v týmu jich působí více než třetina. Ze Spojených států jsou to odborníci například z MIT, Brown a Tulane University či Princetonu. „Někteří z nich hrají ve světě první ligu. Za všechny můžu jmenovat třeba profesora Emondse, jednoho z prvních žáků Noama Chomského na MIT,“ říká Karlík. Z evropských univerzit se podílejí na projektu lingvisté např. z univerzit v Řezně, Neapoli, Vídni, Paříži, Sheffieldu či Tromsoe, kde funguje prestižní Center for Advanced Study in Theoretical Linguistics.
Čeština je totiž pro vědce velmi atraktivní. Je typologicky odlišná od angličtiny, na jejímž základě mnoho lingvistických teorií vzniká. „Čeština skloňuje a časuje, má relativně volný slovosled, a proto data z češtiny otevírají nové pohledy a stimulují tvoření lingvistických teorií. Nikoli náhodou se u nás a zčásti na bázi dat z češtiny mezi válkami vytvářela jedna ze stěžejních teorií poznání jazyka, pražský strukturalismus, který ovlivnil vývoj jazykovědy, a nejen jí, v celosvětovém měřítku,“ popisuje prof. Karlík.
Unikátní elektronické zpracování
Jednotlivá hesla předají bohemisté odborníkům na Fakultě informatiky MU, kteří je uloží do elektronické databáze, jež bude poté přístupná uživatelům prostřednictvím webových stránek. „Tento internetový elektronický portál je založen na lexikografické platformě DEBII vyvinuté v Centru pro zpracování přirozeného jazyka FI,“ říká doc. Karel Pala z Fakulty informatiky MU.
Systém je tvořen dvěma hlavními částmi – první z nich je serverová, v níž jsou uložena všechna data tvořící encyklopedii. „Druhá představuje klienta, tj. webové rozhraní, jehož prostřednictvím mohou uživatelé klást dotazy a podle potřeby vyhledávat informace, které je zajímají,“ upřesňuje Karel Pala.
Platforma je vytvořena přímo pro slovníky a nabízí velmi rychlé vyhledávání. Speciální kódování pak umožňuje zpracovat znaky například ze staroslověnštiny, staré češtiny, i všech světových jazyků. Navíc díky tomu, že aplikaci vyvíjejí vědci přímo na univerzitě, je nejen mnohem levnější, ale lze ji lépe přizpůsobit konkrétním požadavkům lingvistů, kteří obsah encyklopedie zpracovávají.
„Na platformě DEBII byly vytvořeny další lexikografické aplikace, například slovníkový prohlížeč DebDict, jenž poskytuje přístup k šesti hlavním českým slovníkům a dalším zdrojům, jako je například CIA World Factbook,“ doplňuje Karel Pala. Tohoto webového rozhraní aktuálně využívá téměř osm stovek bohemistů z celého světa.