Časopis Slovo a slovesnost
en cz

Pražské kolokvium o mechanizaci a automatizaci v jazykovědě

Jaroslav Závada

[Kronika]

(pdf)

Пражский коллоквиум о механизации и автоматизации в языкознании (1966 г.) / Colloque de Prague sur la mécanisation et l’automatisation en linguistique

Ve dnech 7. až 10. června 1966 se konalo v Praze kolokvium o mechanizaci a automatizaci v jazykovědě. Setkání odborníků z celé Evropy, od vzniku této nové oblasti lingvistiky vlastně teprve třetí (po poradách v Tübingen 1960 a v Besançonu 1961), bylo uspořádáno z iniciativy Jitky Štindlové Ústavem pro jazyk český ČSAV a E. Matera, vedoucího Výboru pro technické prostředky a strojové zpracování informací Německé akademie věd v Berlíně. Kolokvia se zúčastnilo 14 zahraničních hostů, většinou vedoucích evropských mechanografických laboratoří a odborníků pracujících na rozsáhlých projektech v této oblasti. Kromě E. Matera např. A. Bodson (Laboratoire d’analyse statistique des langues anciennes v Lutychu) a prof. A. Duro (Accademia della Crusca, Florencie); s výjimkou pracovišť v Nancy, Utrechtu a Manchestru byly v Praze zastoupeny všechny evropské ústavy, které k výzkumům v jazykovědě užívají moderní výpočetní techniky. Byl tu i P. Roberto Busa z Itálie, který je považován za zakladatele tohoto, sotva patnáct let starého oboru (jeho laboratoř v Gallarate pracuje již od r. 1953 a zpracovává mimořádně rozsáhlé soubory).

Kolokvium podalo přehled o realizovaných i připravovaných projektech mechanizované analýzy klasických i současných jazyků, jejich statistického výzkumu v oblasti morfologie a syntaxe a průřez metodickými i technickými problémy oboru. Texty informativních přehledů, referátů a sdělení a některé další materiály budou publikovány ve sborníku Les machines dans la linguistique, který uspořádal E. Mater a J. Štindlová. Sborník vyjde v nejbližší době; proto zde nepodáváme zprávu o jednotlivých referátech a sděleních, ale shrnujeme samu problematiku.

První skupina problémů, jimiž se účastníci kolokvia zabývali, se týká převádění textů přirozených jazyků do strojově čitelné formy, jež zahrnuje předběžnou redakci textů (oprava tiskových chyb, označení nežádoucích pasáží, doplnění nečitelných a chybějících písmen v rukopisech a starých tiscích ap.), a dále děrování do štítků a prověření správnosti děrování. V této fázi zpracování přirozených textů se projevuje zvlášť citelně nepoměr mezi rychlostí a spolehlivostí vlastního strojového zpracování a pomalým, různými subjektivními faktory ovlivňovaným vstupem do mechanizovaného systému. Při řešení tohoto rozporu nespoléhají pracovníci mechanografických laboratoří příliš na technický pokrok v podobě zařízení na snímání tištěného nebo i psaného písma. Na kolokviu byla zdůrazňována nutnost spolupráce mezi jednotlivými laboratořemi, jež by mohly vytvořit mezinárodní „knihovnu“ textů nejrůznějšího druhu, převedených do strojově čitelné formy. Důsledná realizace této myšlenky by nejen vyloučila nebezpečí duplicitního výzkumu týchž textů (k němuž v některých případech již došlo), ale i nebezpečí daleko obtížněji kontrolovatelných duplicit v náročné přípravě programátorské a znamenala by i úsporu strojového času při koordinování obdobných programů. P. Busa se zabýval vlivem subjektivních činitelů na správnost přepisu textů do strojově čitelné formy.

Výměna textů v strojově čitelné formě naráží na problém nejednotnosti (a nesjednotitelnosti) kódů jednotlivých laboratoří. Rozsah grafematické soustavy jazyka (nebo jazyků), s nimiž má laboratoř pracovat, je činitelem spoluurčujícím volbu mechanizačních prostředků. Protože většina jich je orientována na angličtinu, vyhovují tato zařízení dokonale pouze pro jazyky, jejichž grafematické soustavy neobsahují více než 26 znaků. Z toho je zřejmé, s jakými potížemi se setkává užití systémů mechanizovaného zpracování textů v jazycích s větším počtem grafémů. Vytvoření univerzálního kódu není možné často ani pro skupinu příbuzných jazyků; sestavení univerzální „strojové řeči“ pro mechanografické laboratoře je zřejmě zcela nemožné. Je poučné zkoumat, jak jednotlivé laboratoře tyto problémy řeší; otázky kódů byly na kolokviu rovněž předmětem živých diskusí.

Další závažný problém, o němž se dis[105]kutovalo, týká se druhé fáze mechanizovaného zpracování textů v přirozených jazycích, „lemmatizace“ slovních forem. Rozumí se jí přiřazování „adresních znaků“ slovním formám textu; podle těchto znaků stroj v další fázi ke každé zkoumané jednotce vyhledá v paměti a vypíše příslušné lemma, tj. slovníkovou podobu zkoumané slovní formy. Algoritmus lemmatizace je možno podle R. Busy řešit dvojím způsobem: (1) na úrovni posloupnosti znaků — slovo je považováno za pouhou řadu různých znaků strojového kódu a porovnává se se slovníkem uloženým v paměti počítače (tento postup však neřeší problémy homografie); (2) na úrovni syntaktické — lemma je určováno syntaktickým rozborem věty; toto řešení je z hlediska algoritmizace dosti náročné. Lemmatizace má zásadní význam pro mechanizované sestavování nejrůznějších rejstříků, konkordancí i frekvenčních slovníků.

Při sestavování konkordancí, tj. rejstříků s kontextem, vzniká další závažný problém: automatické stanovení rozsahu kontextu. Automatické členění textu na kontextové úseky má vždy řadu nevýhod: je-li kontext příliš rozsáhlý, ztěžuje práci s většinou dokladů. Je-li naopak příliš krátký, je mnoho dokladů zcela bezcenných. Účastníci kolokvia se v diskusích na toto téma přikláněli k názoru, že jsou vhodnější krátké orientační kontexty. Hlediska sémantická nelze při automatickém stanovení kontextu prozatím brát v úvahu, musíme se proto spokojit s víceméně formálním stanovením jeho rozsahu. Většina programů vychází z empiricky stanoveného optima; kontext je vymezen mezerami nebo interpukčními znaménky, např. 50 znaků před daným slovem a 50 znaků za ním (zde se projevuje rušivě dvojí význam některých symbolů, zvl. interpunkčních, např. tečky za zkratkou); tyto případy je nutno řešit při předběžné redakci textu před jeho děrováním.

Stěžejní problém, jímž se na kolokviu zabývali zvláště E. Mater, A. Bodson a A. Duro, se týkal množství informace, kterou je možno odvodit z daného materiálu (např. souboru děrných štítků) v průběhu strojového zpracování. A. Mater zdůrazňoval kvalitativní rozdíl mechanografických metod ve srovnání s „klasickými“ metodami, např. v lexikologickém výzkumu, jenž spočívá v možnosti získat z daného souboru kromě informací primárních, informace další, zcela nové, odvozené.

Této metody, velmi blízké principům tzv. sekundárního a terciárního programování, nebylo poprvé užito na počítači, ale na běžné děrnoštítkové soupravě, jejíž programovací možnosti jsou v porovnání s počítačem značně omezené.

Množství informace, kterou je možno z daného materiálu odvodit, závisí v prvé řadě na uspořádání údajů, které danou lexikální jednotku blíže charakterizují. Data mají být (např. na děrném štítku) uspořádána tak, aby umožnila co nejdokonaleji charakterizovat uvažované jednotky s minimálními nároky na kapacitu paměti (počet sloupců děrného štítku). Charakterizace má být zcela jednoznačná, univerzálně platná a jednotlivé složky vzájemně kombinovatelné. Příklad dokonale propracovaného rozmístění údajů na děrném štítku (tzv. klíče) předvedl na kolokviu A. Bodson. Návrhy užší spolupráce mezi mechanografickými laboratořemi, předkládané vedením pracoviště v Lutychu, se týkaly také otázky sjednocení klíčů pro základní popis lexikálního materiálu. Realizace této myšlenky je problematická, laboratoře by však mohly uskutečnit řadu zajímavých výzkumů na úrovni několika jazyků.

Kolokvium přineslo mnoho zajímavých poznatků i o otázkách technického vybavení mechanografických laboratoří. Z hlediska koncepce laboratoře budované při ÚJČ ČSAV byla velmi závažná otázka, jaké perspektivy má děrnoštítková technika v soutěži se samočinnými počítači. Odpověď je zajímavá i pro jiné obory, které plánují využití mechanizačních prostředků nebo přecházejí z techniky děrných štítků na samočinné počítače. Je možno považovat za specifikum použití mechanizačních prostředků v jazykovědě, že z jednání kolokvia, ani ze soukromých debat naprosto nevyplynula nadřazenost samočin[106]ných počítačů nad technikou děrných štítků. Jednou z nejzávažnějších příčin je charakter fondů mechanografické laboratoře (rozsáhlý, zpravidla pozvolna narůstající soubor děrných štítků, které si přitom více než kde jinde zachovávají funkci dokladů). Je sice pravda, že starší laboratoře (v Gallarate, Besançonu a v Berlíně), původně vybavené děrnoštíkovými stroji, ponechávají techniku děrných štítků přednostně pro řešení jednodušších úloh velkého rozsahu a složitější úkoly svěřují samočinným počítačům a že laboratoře vybudované na počátku 60. let jsou vybaveny zpravidla již jen samočinnými počítači. Je nutno si však uvědomit, že stroje na děrné štítky jsou přímo konstruovány na provádění zakládacích, třídicích aj. operací, v jazykovědě dosti častých, jež samočinný počítač vykonává relativně pomalu a s malou účinností. Základní manipulaci s děrnoštítkovými stroji je možno (po patřičném zaškolení) svěřit i lingvistovi, naproti tomu na počítači i nejjednodušší operace musí připravovat zkušený programátor. Poměr vlastní jazykovědné práce a kvalifikované činnosti programátorské je tedy při použití samočinného počítače dosti nepříznivý. Pracoviště v Lutychu, v současné době nejlépe vybavené, používá vedle děrnoštítkové techniky i počítač IBM 1620. „Hybridní“ koncepce naší laboratoře (vybavení děrnoštítkovými stroji a realizace složitějších úloh na samočinném počítači v jiném ústavu ČSAV) je velmi výhodná. Laboratoř bude kromě toho vybavena zařízeními, jejichž použití je v daném oboru unikátní: soupravou pro snímání stylizovaného tištěného nebo psaného písma, sadou elektromechanických počítadel pro nejrůznější statistické výzkumy, převodníky kódu pracujícími na velmi progresívním principu využití magnetických spínacích prvků (o tyto převodníky projevili zahraniční návštěvníci mimořádný zájem), systémy sekundárního a terciárního programování aj.

Tato zpráva podává přehled hlavních problémů, které mechanografické laboratoře v současném stadiu svého vývoje musí řešit. Kolokvium bylo oponenturou koncepce právě budované mechanografické laboratoře Ústavu pro jazyk český a zároveň seminářem této nové oblasti jazykovědy na nejvyšší úrovni.

Slovo a slovesnost, ročník 28 (1967), číslo 1, s. 104-106

Předchozí Marie Zichová: Rentgenologický výzkum artikulace českých vokálů

Následující Rudolf Šrámek: IX. mezinárodní onomastický kongres