Časopis Slovo a slovesnost
en cz

Matematická lingvistika a počítače

Marie Ludvíková

[Kronika]

(pdf)

Математическая лингвистика и вычислительные машины / La linguistique mathématique et les machines à calculer

Matematická lingvistika a počítače — tak se jmenuje rozsáhlý sborník shrnující referáty z mezinárodního kolokvia a letní školy, které se konaly v Pise od 16. 8. do 6. 9. 1970 a byly věnovány automatickému zpracování dat v lexikologii a lexikografii.[1] Sborník Linguistica matematica e calcolatori (Florencie 1973, 669 s.) vyšel v redakci A. Zampolliho.

Metoda mechanizovaného a automatického zpracovávání jazykových jednotek lexikální roviny byla od počátku aplikována jak na jazyk současný, tak na jazyky dnes neživé. Jak o tom svědčí referáty uveřejněné ve sborníku, výzkumy na pracovištích v Itálii, Francii, Holandsku, Švédsku aj. pokračují v obou těchto liniích. Novými plody v oblasti současných jazyků jsou např. frekvenční slovník švédštiny zpracovaný na podkladě 1 miliónu textových slov z pěti deníků (ref. S. Allén, Göteborg), frekvenční slovník italštiny, jehož materiálem (500 000 slov) jsou divadelní hry, romány, filmy, periodika a příručky (A. Zampolli, Pisa), připravuje se slovník italštiny o 120 000 heslech čerpající materiál z existujících hlavních slovníků italského jazyka (A. Zampolli), dále jsou to frekvenční seznamy slov z holandských novin a časopisů, retrográdní frekvenční slovník holandštiny (W. Martin, Lovaň), frekvenční seznamy slov a ustálených slovních spojení v současných anglických divadelních hrách (L. Engels, Lovaň), pracuje se na velkém abecedním a frekvenčním slovníku francouzštiny na základě literatury 19. a 20. století (R. Martin, Nancy); ve francouzském Besançonu se průběžně vytváří archív francouzských slov („banque des mots“), jehož cílem je shromáždit úplný inventář současného jazyka, sestavují se frekvenční slovníky mluvených jazyků (např. němčiny, španělštiny), slovník současné vědy a techniky (B. Quémada, Besançon) aj. Počet i materiálový rozsah těchto prací je úctyhodný. Současně však zjišťujeme, že stejná, ne-li větší pozornost je věnována zkoumání slovní zásoby různých historických období. Výzkumy, jak o nich referovali účastníci zasedání, jsou sice provedeny na menších materiálových souborech, zato však ve značné tematické šíři. Počítače tu poskytují možnost, aby se i studium vývoje jazyka pokusilo o kvantitativní popis jeho jednotlivých historických vrstev, a to z hlediska určité epochy, autora i stylu.

Mezi nejstarší pracoviště specializovaná na historickou lexikologii patří Laboratoř pro statistickou analýzu starých jazyků v Lutychu, kde vedle studia slovníku klasic. autorů (Seneca, César, Salustius atd.) přikročili i k analýze řeckých papyrů; v této počáteční etapě analyzují texty s cílem opatřit jejich podrobný dokumentační popis, jak o tom ve sborníku referuje E. Evrard. Dále jsou rozpracovány projekty historických slovníků holandštiny (F. Tollenaere, Leiden), francouzštiny 12. a 13. století (C. Dubois, Lutych), italštiny (A. Duro), slovník klínové chetitštiny (P. Merrigi) a slovník rumunštiny 16. stol. (F. Dimitrescu); poslední tři projekty i většina následujících jsou zpracovávány v univerzitním výpočtovém středisku v Pise. Uveďme zde ještě konkordance italského básnického jazyka 13. stol. (S. Avalle), slovník legislativy císaře Justiniána (N. Ziletti), slovník latinského divadla (T. Guardi) a intelektuální slovník evropský zachycující slovní zásobu filozofických a obecně vědeckých textů 17. a 18. stol. v původních jazycích (angličtina, francouzština, němčina, italština — A. Duro). Z hlediska metodického je zajímavý příspěvek J. Neuhause (Saarbrücken): na základě analýzy a vyhledávání informace v běžných slovnících byl počítačem sestaven chronologický slovník angličtiny uvádějící hesla podle data, kdy se slovo objevilo v tisku poprvé.

[346]Vedle tohoto nejrozsáhlejšího oddílu věnovaného lexikální statistice obsahuje sborník menší oddíly zabývající se statistickou stylistikou, popř. algebraickým popisem některých jevů syntaktických a sémantických.

Ze stylistických příspěvků se zmíním nejprve o článku R. J. Dyera zpracovaném podle přednášek na letní škole. Pojednává o metodách měření autorského stylu, při nichž lze v maximální míře využít počítače; vedle metod statistických jsou zde uvedeny i metody identifikační, užívající deskriptorových indexů. Porovnáváním textů různých autorů, zvl. z hlediska konvenčnosti a originálnosti verbálního projevu, se zabývá další článek shrnující proslovené přednášky: je to čl. „Počítač v literárních výzkumech“ od J. Rabena. Jak už titul napovídá, vlastní výzkumy jsou začleněny do širokého kontextu aplikací počítače v humanitních oborech. Přednášky Ch. Mullera upravené pro sborník pod názvem „Úvod do metody statistické lingvistiky“ přinášejí výklad základních pojmů disciplíny, popisují různé typy statistických šetření a ilustrují je příklady z lexikální statistiky. Stylistický oddíl doplňuje analýza latinského hexametru (W. Ott) a lexikální a gramatická analýza odpovědí při Rohrschachově testu sloužící zjištění vlivu psychických poruch na jazykový projev (F. Castrogiovanni, A. Telara).

Z problematiky syntakticko-sémantické věnuje se pozornost sémantické struktuře slova a jejímu odrazu v syntaxi, zvl. se zřetelem k negaci (D. Parisi): dále je předveden program syntaktické analýzy vybudované na principu Harrisovy řetězcové gramatiky (M. Salkoff), syntaktická analýza italštiny na základě frázové gramatiky (A. von Stechow), modelování sémantických vztahů ve větě pomocí otázek ano-ne (H. Schnelle), některé syntaktické a sémantické problémy strojového překladu z angličtiny do němčiny (P. O. Samuelsdorf) a strojový překlad jako průnik matematiky, lingvistiky a informatiky (G. Veillon).

Vedle lingvistiky jsou ve sborníku okrajově zastoupeny ještě jiné humanitní obory využívající mechanizované zpracování jazykových dat. Uvažuje se o aplikaci těchto postupů v jazykové geografii (C. Grassi), popisuje se analýza lexikálního inventáře a metriky italských lidových písní (A. M. Cirese). V oblasti historických věd a dokumentace se seznamujeme s několika dokumentačními projekty, které mají sloužit k utřídění a vyhledávání informací v archeologii (analýza obrazů na řeckých vázách obsahujících údaje mytologické, ikonografické, náboženské a literární — P. E. Arias), v právnictví (projekt automatického vyhledávání právnických informací — A. Ciampi) a ve středověké i současné diplomacii (popis středověkých listin, dokumentační analýza smluv uzavřených v EHS — L. Fossier, M. Losano).

Na konec se ještě vrátím k dvěma obsáhlejším příspěvkům odlišujícím se svým charakterem od příspěvků ostatních. Jejich autory jsou dva z nejzkušenějších pracovníků tohoto oboru, A. Zampoli a B. Quémada.

Zampolliho referát poskytuje vhled do práce Národního univerzitního výpočtového střediska v Pise (CNUCE). Ve středisku je instalován moderní výkonný počítač IBM 360/67 s možností napojit externí terminály. S humanitním sektorem CNUCE spolupracuje na 50 pracovišť domácích i zahraničních (např. rumunské), bylo tu již zpracováno více než 50 miliónů slov ve 20 jazycích. Takové soustředění práce znamená značné úspory v tom, že se užívá jednoho způsobu záznamu dat, užívají se i hotové vyzkoušené programy, jsou k dispozici soubory již utříděných jazykových dat, která mohou sloužit při srovnávání jako „standard“, a konečně i bohaté zkušenosti odborného i technického personálu. Formou zakázek se tu zpracovává široká škála dat z nejrůznějších oblastí, jak se o nich zmiňovaly některé výše uvedené referáty (vedle lingvistiky např. filologie, folkloristika, historie, defektologie apod.). Lingvistická sekce výpočtového střediska má i vlastní výzkumné úkoly, a to jednak v oblasti programování (sestavení programů pro lemmatizaci, abecední řazení, zjišťování četností jazykových jednotek, algoritmus slovnědruhového rozboru, fonetické transkripce, dělení slov na slabiky, výpočet entropie a další), jednak v oblasti jazykové statistiky italštiny (statistika fonologická, lexikální a syntaktická).

B. Quémada se vedle přehledu práce lexikologického centra v Besançonu zasvěceně vyjadřuje k některým obecným otázkám využívání mechanografických prostředků v lingvistice. Vyvstala tu řada teoretických otázek, [347]na něž je možno odpovědět jen na základě dlouhodobých zkušeností. Je to např. problematika dokumentačních potřeb lexikografie, vhodnost a rozsah použitého materiálu z hlediska získání lingvistických informací, definování cílů slovníku obsahujícího lingvistickou informaci a další. Zavedení mechanizace není pro jistý tým nebo typ práce epizodou, ale dlouhodobou záležitostí. Je třeba klást důraz na pečlivou přípravu dat, jejich kontrolu a na přizpůsobení analýzy možnostem počítače. Zato rozsah a použitelnost výsledků se ve srovnání s manuálním zpracováním mnohonásobně zvýší. S B. Quémadou lze souhlasit i v tom, že děrnoštítkové stroje se neustále modernizují, a i když nemají rychlost počítače, jsou poměrně levné a mají snadnou obsluhu, mohou tedy představovat minimální vybavení menších výzkumných lingvistických pracovišť.

Po pročtení tohoto objemného svazku pozastavujeme se nad závratnými čísly hovořícími o množství slov a jiných jazykových údajů zpracovaných na počítači; jejich počet jde do desítek a stovek miliónů. Soudíme, že tato záplava informací o evropských jazycích klade velké nároky na jejich zvládnutí, využití a především rozumnou interpretaci. A právě v ní, a nikoli jen v systematickém shromažďování dat, vidíme u nás smysl statistické analýzy jazyka.


[1] Pracovníci ze socialistických zemí — až na jednu výjimku — nebyli na kolokviu zastoupeni.

Slovo a slovesnost, ročník 36 (1975), číslo 4, s. 345-347

Předchozí Jan Lehár: Nad edicí Zdoroslavíčka

Následující Ladislav Nebeský: Sovětská práce o informačních jazycích