en cz

Ještě k Vědeckým a technickým možnostem rozvoje české lexikografie

Eva Hajičová, Karel Pala

[Rozhledy]

Some notes on Linguistic and technical possibilities of the development of the Czech lexicography

Vítáme skutečnost, že I. Němec zareagoval na projekt Počítačového fondu češtiny (viz Němec, 1992), a chápeme ji jako příležitost vyjasnit si v diskusi některé aktuální otázky.

Souhlasíme s I. Němcem, když říká: „… je nám jasné, že ona zaostalost tkví především ve dvou skutečnostech: jednak v nedostatečně hluboké, a tedy ne dost vědecké lexikologické analýze české slovní zásoby (odd. 1. 1.), jednak v nevyužití počítačové techniky při této analýze i při zpracování jejích výsledků v lexikografickém popisu (odd. 1. 2.).”

Dodáváme však, že u počítačové techniky nedostatek nespočívá jen v jejím nevyužívání, nýbrž i ve falešné a dosti rozšířené víře, že počítačová technika je pouhým technickým nástrojem bez jakýchkoli metodologických implikací.

K tomu uveďme jednoduchý příklad: mějme český text, jehož délka činí zhruba 11 000 slovních tvarů; k tomuto textu chceme sestavit konkordanci obsahující pro [65]každý slovní tvar všechny kontexty (se zadanou délkou – obvykle v rozsahu 4–5 slov vlevo i vpravo od daného slovního tvaru; tento parametr lze ovšem podle potřeby měnit), v nichž se vyskytuje. Program MicroOCP (Oxford Concordance Program) to udělá na osobním počítači PC AT 386 zhruba za 17 minut a výsledkem je textový soubor, který může být snadno vytištěn na laserové tiskárně rovněž během asi 20 minut. Jak dlouho by tuto práci dělal jeden zkušený lexikograf, jestliže použije techniky „tužky, papíru a lístků rozložených po místnosti”?

A přitom je nasnadě, jaký význam má pro lingvistu vyhledání takového souboru, např. právě pro „vyčlenění sémantických komponentů” (což je jistě důležitý úkol, ale jen jeden z úkolů lexikografie). Počítač tu umožňuje vytvořit automatickou kartotéku a také s ní rychle a objektivně zacházet (pomocí programů lze údaje porovnávat, provádět jejich úpravy, doplňovat a obohacovat nebo zase nevhodné údaje, třeba duplicity, vyřazovat).

V žádném případě nepochybujeme o tom, že „… využití počítačů v lexikografii není možné bez přípravné analytické práce odborníků–lexikologů”, a snad jsme takovou pochybnost nikde ani nenaznačili.

Právě na příkladu Slovníku spisovného jazyka českého (1960–1971) lze demonstrovat, jak je taková práce důležitá, a díky tomu, že již byla zčásti vykonána, má nyní smysl uvažovat o jeho údajně problematickém „přepsání do počítače”. K tomu podotýkáme, že nikdo z nás netvrdil, že SSJČ musí být přepsán do počítače tak, jak „leží a běží”, a aniž se odstraní některé jeho nedostatky. Ale i kdyby mělo jít jen o pouhé přepsání SSJČ do počítače, umožnilo by to uložit do paměti počítače nemalý díl oné ohromné analytické práce odborníků–lexikologů a výsledky této práce pak podrobit exaktní a manuálními technikami neproveditelné vědecké analýze: ta by ukázala všechny nesystematičnosti a chyby, které v SSJČ jsou – nejen ty, o nichž již víme, ale i mnohé další.

K tomu je třeba doplnit, že otázka přepisu SSJČ do počítače nebyla a není v projektu počítačového fondu češtiny na prvním místě a že náklady na tento přepis nejsou do celkového rozpočtu zahrnuty, o čemž se lze přesvědčit nahlédnutím do textu Čermák – Králík – Pala (1992). I. N. se však nezmiňuje o tom nejpodstatnějším – skutečným cílem počítačového fondu češtiny je (Čermák – Králík – Pala, 1992, s. 44): „vypracovat a uvést v život základní verzi projektu lexikografického počítačového korpusu a tezauru (počítačový fond češtiny), představující rozsáhlou a mnohovrstevnou databanku o desítkách miliónů slovních tvarů”.

Jedním z východisek počítačové lexikografie je právě tvorba strojově čitelných slovníků, které pak představují vskutku objektivní podklady pro onu „vědeckou analýzu”, tak zdůrazňovanou I. Němcem (s. 50). Zatím převažující způsob vytváření strojově čitelných slovníků spočívá v tom, že se tištěné varianty slovníků (např. pro angličtinu, němčinu, francouzštinu aj.), resp. jejich sázecí pásky či diskety, uloží (převedou, přepíší) do paměti počítače a řadou programů se pak dále zpracovávají tak, aby se zjistily jejich největší nedostatky (např. nevýstižnost, nekonzistentnost, neúplnost). Až po provedení těchto analytických kroků se obvykle přistupuje k tvorbě vlastního strojově čitelného slovníku neobsahujícího již typické lidské chyby, které však při rozsahu zpracovávaného materiálu (kolem 200 tis. hesel např. SSJČ) by byly nevyhnutelné a klasickými lexikografickými technikami prakticky – díky velkému rozsahu zpracovávaných dat – neodstranitelné.

Nelze totiž přehlížet zásadní fakt, že jinak bude vypadat lexikografické zpracování staročeských textů, jichž je konečný počet, a tvoří tedy uzavřený soubor, a jiná je situace při zpracovávání současného jazyka, jehož korektní vědecká lexikografická analýza musí být založena na dostatečně velkém korpusu textů – dnes se za dostatečně reprezentativní pokládá korpus zpravidla v rozsahu kolem 20 miliónů slovních tvarů, ale již nyní se pro angličtinu (Sinclair, 1991) začíná vytvářet korpus, který by měl čítat kolem 100 miliónů slovních tvarů. Zde jsou již techniky „tužky a papíru” vskutku nepoužitelné, ale nikdo z nás přece nechtěl říci a ani neřekl, že při koncepční práci na [66]„projektech miliónové ceny” se nebude používat „tužky a papíru”, to pokládáme za implicitní. Proto nás mrzí, že nám I. N. (s. 52) podkládá negaci klasických technik; tak naivní opravdu nejsme, a použitý způsob argumentace pokládáme proto za poněkud nešťastný. Nemíří totiž k podstatě věci.

Naopak, to, co on sám říká (s. 52–53), prozrazuje, že není dostatečně obeznámen s technikami práce založenými na využití kvalitního lexikografického programového vybavení, jakým je např. výše citovaný oxfordský programový systém MicroOCP (Oxford Concordance Program) nebo Lexicographer’s Workstation E. Picchiho z Pisy, které umožňují i na jednu obrazovku umístit nemalé množství údajů a na ní pak prohlížet i značně rozsáhlé soubory údajů. Místo techniky „papírů popsaných tužkou a rozložených po celé místnosti” se v projektu počítačového fondu češtiny (Čermák – Králík – Pala, 1992, s. 46) počítá s řádkovou a laserovu tiskárnou (i když pochopitelně nevylučujeme, že si v případě potřeby výstupy z těchto tiskáren rozstříháme a rozložíme i ve více místnostech).

Jde o postupy ověřené již na řadě světových jazyků a jejich reprezentativních slovníků (Oxford, Longmans, Collins, Webster, Larousse aj.), takže by jistě bylo bláhové objevovat znovu Ameriku. I. N. (s. 50) nás upozorňuje, že „pro českou lexikografii mohou být sotva vzorem slovníky zpracované sice pomocí počítačové techniky, ale definující význam slov intuitivně; to znamená …” Pro meritorní diskusi by bylo třeba konstatovat, který konkrétní slovník má I. N. na mysli. Ovšem literatura věnovaná těmto otázkám svědčí o tom, že autoři citovaných strojově čitelných slovníků jsou si zmíněných problémů dobře vědomi, jejich řešení znají a aplikují je v praxi (Boguraev – Briscoe, 1989).

Počítačová lexikografie je založena na metodologických postupech, které vycházejí z klasické lexikografie a k ní přidávají relevantní poznatky současné teoretické lingvistiky plus potřebné znalosti počítačové vědy včetně nezbytných znalostí o programovém a technickém vybavení současné výpočetní techniky. Z toho plyne, že současný lexikograf by měl kromě své specializace, jak o ní mluví I. N., mít jisté základní znalosti o lingvistických algoritmech, formálních gramatikách a také o konkrétním programovém a technickém vybavení současných osobních počítačů a pracovních stanic (nemluvě o počítačových sítích). Ovšem kolik takových lexikografů mají naše lingvistická a lexikografická pracoviště?

Je pro nás do jistě míry překvapením, že I. N. se uchyluje k argumentaci založené na nebezpečí redukcionismu (s. 52). K tomu uveďme konkrétní příklad: V Ústavu českého jazyka při FF MU byl na základě počítačového hesláře SSJČ vytvořen počítačový slovník čítající zhruba 170 000 českých kmenů a na něj navazující seznam téměř 500 vzorů pokrývajících českou substantivní, adjektivní a slovesnou flexi včetně odpovídající klasifikace kmenotvorných přípon a tvarotvorných koncovek (Osolsobě – Pala, 1990 a Osolsobě, 1990). Podobně bylo třeba zpracovat českou morfologii pro automatický korektor chyb (spell–checker) (Hajič – Drozd, 1990). Teprve tyto výsledky poskytují možnost dostatečně přesně zpracovat řadu problémů, které jsou v tradičních gramatikách (Havránek – Jedlička, 1960; Mluvnice češtiny, 1986–1987) naznačeny jen rámcově; to platí např. o řadě problémů slovotvorných, otázkách produktivity jednotlivých vzorů, povaze tzv. výjimek v české deklinaci a konjugaci apod. Je však příznačné, že tradiční lingvisté se o tyto výsledky příliš nezajímají (článek K. Osolsobě Model vybraných slovotvorných typů v jazyce Prolog, věnovaný těmto otázkám, byl svého času autorce vrácen dřívější redakcí Slova a slovesnosti s výhradou, že je příliš „technický” a značně se odchyluje od klasických přístupů k české morfologii). Na druhé straně lze pozorovat výrazný zájem o tyto výsledky ze strany informatiků a programátorů. Nedávno byl např. vyvinut soubor programů s obecnou charakteristikou „lexikografická pracovní stanice” (viz třeba Boguraev, 1991) – jde tu o systémy speciálně navržené pro automatizaci různých aspektů procesu tvorby slovníků.

Počítačů se využívá ve značném rozsahu jak před tím, tak i po tom, co byl nový slovník vytvořen. Tam, kde jde o budování úplně nových slovníků, je zvládnutí a před[67]zpracování velkých korpusů dat zásadním předpokladem pro slovníkové projekty: pouhý rozsah zpracovávaných korpusů činí počítače nepostradatelnými pro korpusovou lingvistiku.

Korpusová analýza je tu výchozím momentem: vyjdeme-li ze stanoviska, že lingvistickou informaci o slovech lze odvodit z rozsáhlých textových počítačově přímo dostupných (on line) zdrojů, pak korpusová analýza vyžaduje, aby se počítač stal aktivním činitelem v odhalování lingvistických generalizací, kontextových pravidelností, lexikálních vlastností apod., ale i jevů zcela nových.

V textu I. N. však nenajdeme sebemenší zmínky o otázkách korpusů a korpusové lingvistiky – lze tomu rozumět tak, že korpusová lingvistika nemá nic společného s lexikografií? To by ovšem zbavovalo lexikografii možnosti s uplatněním moderní techniky využívat širokou materiálovou základnu a podstatně tak zlepšit podmínky pro systematický výzkum a klasifikaci slov a jejich významů.

V poslední době se otázkám slovníku ve světové lingvistice přikládá stále větší význam, a to nejen z hlediska lexikografického a lexikologického, ale i z hlediska vztahu mezi slovníkem a gramatikou. Ukazuje se – ve shodě s tím, co se v závislostním typu gramatiky považuje za samozřejmé –, že slovníkový komponent popisu jazyka zahrnuje nutně řadu gramatických údajů nezbytných pro popis struktury věty. Korpusová analýza i zde zaujímá důležité postavení: je třeba připravit programy, které by nejen vytvářely konkordanci „holého” textu, ale takové, které by pomohly opatřit jednotlivé výskyty slov v textu gramatickými (morfologickými a syntaktickými) informacemi. U nás se návrhy na takové pojetí korpusové analýzy objevují od poloviny 80. let, později, v r. 1987, vzniklo neformální sdružení institucí (včetně Ústavu pro jazyk český), kde jsme se ve vzájemných diskusích na takový úkol připravovali. Dnes se řada pracovníků Ústavu hlásí ke spolupráci v rámci nové nadace zaměřené na lexikologii.

Není však naším cílem hledat body, v nichž se náš pohled na lexikografické otázky rozchází s pohledem I. Němce. Právě naopak, naším cílem je spojit se se všemi, kdo chtějí participovat na budování počítačového fondu češtiny v oblasti současného jazyka, dialektologie, onomastiky či staročeské slovní zásoby, kdo by rádi přispěli k vybudování slušně vybavené lexikografické laboratoře, bez níž není a nebude možné zachytit a dále kultivovat naše národní dědictví – český jazyk ve všech jeho podobách.

LITERATURA

Boguraev, B.: Building a lexicon: an introduction. International Journal of Lexicography, vol. 4, No 3, 1991, s. 1–2.

Boguraev B. – Briscoe, T. (ed.): Computer Lexicography for Natural Language Processing. Longman, London – New York 1989.

Čermák, F. – Králík, J. – Pala, K.: Počítačová lexikografie a čeština (počítačový fond češtiny). SaS, 53, 1992, s. 41–48.

Hajič, J. – Drozd, J.: Spelling–checking for highly inflected languages. In: COLING’90. Helsinki 1990.

Havránek, B. – Jedlička, A.: Česká mluvnice. Academia, Praha 1960.

Mluvnice češtiny I.–III. Academia, Praha 1986–1987.

Němec, I.: Vědecké a technické možnosti rozvoje české lexikografie. SaS, 53, 1992, s. 48–55.

Osolsobě, K.: Model vybraných slovotvorných typů v jazyce PROLOG (rukopis pro SaS, Brno 1990).

Osolsobě, K. – Pala, K.: Czech stem dictionary for IBM PC XT/AT. In: Conference on Computational Lexicography. Balatonfüred 1990.

Sincalir, J.: Corpus, Concordance, Collocation. Oxford University Press, Oxford 1991.

Slovník spisovného jazyka českého. Academia, Praha 1960, 1964, 1971 (v textu SSJČ).

Slovo a slovesnost, ročník 54 (1993), číslo 1, s. 64-67

Předchozí Jana Hoffmannová: Koherence, koheze, konexe…?

Následující Ludmila Uhlířová: Michael A. K. Halliday etc. (ed.): Learning, Keeping and Using Language

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: