Časopis Slovo a slovesnost
en cz

Elektronická syntaktická analýza současné němčiny

Josef Štěpán

[Chronicles]

(pdf)

Электронический синтаксический анализ современного немецкого языка / Une analyse syntaxique électronique de l’allemand contemporain

R. 1969 vyšla práce s názvem Elektronische Syntaxanalyse der deutschen Gegenwartssprache (Tübigen, 193 s.). Kniha, napsaná skupinou mladých saarbrückenských germanistů, zčásti ještě studentů, kterou vede prof. H. Eggers, shrnuje výsledky několikaleté práce, dosud publikované především H. Eggersem v několika studiích,[1] ale dále i jeho spolupracovníky v nepravidelně vycházejících Arbeitsberichte, které vydává Germanistický institut spolu s Institutem pro aplikovanou matematiku v Saarbrückenu (zatím vyšlo 8 čísel). — Uvedená kniha představuje vyšší stupeň zkoumání, a proto se jí zabýváme podrobněji. Centrální je kapitola šestá, která se konkrétně zabývá vlastní strojovou analýzou a jejími kroky. Všimněme si nyní jednotlivých kapitol podrobněji.

V první kap. (s. 1—19) představuje H. Eggers práci lingvistické skupiny v perspektivě historické, současné i budoucí, především mu však jde o období současné, a to o cíl a metody práce. Cílem je zjištění hranice automatické analyzovatelnosti jednotlivých psaných vět současného německého jazyka; prostředkem k dosažení tohoto cíle je příprava strojové analýzy vět a vlastní strojová analýza. Ideálním cílem je, aby strojem byla analyzovaná pokud možno každá věta německého jazyka, reálným východiskem k tomu je korpus 100 000 vět (větou se rozumí posloupnost slovních tvarů mezi dvěma tečkami) z takových vrstev psaného jazyka, které nejsou tak diferencovány a individualizovány jako jazyk krásné literatury, a tudíž jsou vhodné pro strojovou analýzu; polovina vět je z populárně naučné prózy (Rowohlts Deutsche Enzyklopädie, RDE) a polovina z novinářské prózy (Frankfurter Allgemeine Zeitung, FAZ). Uvedený počet vět byl snížen asi na 11 000 vět, jež se staly přímým východiskem pro vytvoření systému syntaktické analýzy. Jde jednak o věty nejčetnější (v korpusu RDE je to věta o 16 slovech, v korpusu FAZ věta o 13 slovech), jednak o věty délky 4, 8, 24 a 32 slov (slovem se rozumí posloupnost grafémů od mezery k mezeře). Zde je možno připomenout, že vymezení slova je čistě grafické a že ne zcela odpovídá jazykové realitě (srov. např. v němčině různé „chování“ sloves s odlučitelnou a neodlučitelnou předponou v různých časových pásmech). — Z uvedeného materiálu byl vytvořen strojový slovník a program syntaktické analýzy.

V druhé kap. (s. 20—37) jde W. Kleinovi především o současné stadium práce. Vycházeje z bohaté literatury (mimochodem je W. Klein i autorem bibliografie, která obsahuje 321 titulů z oboru strojové syntaktické analýzy, především západní), vyvozuje, že ne každý formální systém je vhodný pro popis jazyka. Obecně pak uvádí popis jazyka, vlastně systém strojové analýzy, která plánovitě postupuje od roviny slovního tvaru k rovinám vyšším, rovině slovní třídy nominálních a verbálních [87]skupin a rovině podvěty a konečně věty. Podrobně je tento systém popsán v 6. kapitole, o níž se ještě zmíníme.

V třetí kap. (s. 38—48) podává systém strojové analýzy R. Rath, a to z hlediska zkušenosti saarbrückenských germanistů. Tento systém, který má tvar operativní gramatiky složené ze slovníku a několika programů, má aproximativní charakter; je třeba ho neustále zdokonalovat a doplňovat.

Čtvrtá kap. (s. 49—54, napsal H. Zimmermann) vybočuje celkem z dosavadního popisu; obsahuje totiž nejdůležitější technické údaje používaného počítače typu EL X 1 firmy Electrologica, který má speciálně vyvinutý kód, tzv. Kieler Code.

Jakýmsi úvodem k centrální šesté kapitole je pátá kap. (s. 55—61), v níž se H. Zimmermann zabývá výstavbou strojového syntaktického slovníku. Jde o slovník slovních tvarů, v němž každý slovní tvar má jednak údaj o slovní třídě (pojetí slovní třídy vychází z tradičního rozdělení na slovní druhy a modifikuje ho z hlediska syntaktického, takže např. za adjektivum je považován každý slovní tvar v atributivním postavení), jednak má mluvnické významy (rod, číslo a pád u jmen, osobu, číslo a modus u sloves).

Šestá kap. (s. 62—142), která je jádrem knihy, popisuje vlastní průběh elektronické syntaktické analýzy. Tato analýza záleží v tom, že v určité větě jazyka, jež je vložena do stroje, jsou identifikovány nejprve slovní tvary, pak se jim přiřazují údaje ze strojového slovníku (slovní třída, mluvnické významy), ve třetí etapě (resp. na třetí rovině) jsou tyto slovní tvary s příslušnými údaji spojovány v nominální a verbální skupiny; ty jsou pak spojeny v podvěty (jinde nazývané jednotky analýzy) a ty nakonec ve větu. Průběh této analýzy není však v knize popsán ve formě algoritmů, jak bývá zvykem,[2] ale pomocí interpretace řady seznamů a příkladů z něm. jazyka. Řeší se nově některé otázky syntaktické analýzy, např. homonymie. Všimněme si proto podrobněji některých závažnějších otázek.

Vloží-li se text do stroje, vydělí se nejprve slovní tvary a jednotlivým slovním tvarům se přiřadí ze strojového slovníku údaje o slovní třídě a údaje mluvnické. Některé slovní tvary mají jen jednu slovní třídu, např. KIND[3] je substantivum, jiné jich mají více, jsou homonymní, např. SEIN je substantivum, posesívum a infinitiv.[4] — H. J. Weber (s. 62—69)) vyvinul zajímavý program k odstranění homonymie slovních tříd; vychází z 54 homonymních slovních tříd a z kontextových možností, které má ve větě příslušný slovní tvar, přesněji jeho slovní třída. Mnohdy je třeba, aby jedna věta prošla několikrát strojem, aby se odstranila homonymie. Tak např. věta VERSE ENTSTEHEN, DIE MEHR TOENEN ALS SAGEN WOLLEN, kde je sedm homonym (jen první slovo je jednoznačně substativum), musí projít strojem třikrát: v prvním průběhu se odstraní homonymie slov. tvaru ENTSTEHEN (verbum fin. /infinitiv/ substantivum): není-li to infinitiv ani substantivum, je to finitivní verbum, spojené se substantivem VERSE a čárkou oddělené od ostatních slovních tvarů; homonymum WOLLEN (verbum fin. /infinitiv/ adverbium) je řešeno jako verbum fin. vzhledem k svému okolí, stojí na konci věty, ale není to infinitiv. V druhém průběhu se totiž zjistí, že slovní tvary TOENEN a SAGEN (obojí patří opět k homonymní třídě verbum fin. /infinitiv/ substantivum) jsou infinitivy, které doplňují modální sloveso WOLLEN. Ve třetím průběhu se odstraní zbývající homonyma, a to na základě programu, který bere v úvahu okolí slovních tvarů.

Dříve než se vytvoří nominální a ver[88]bální skupiny, je každá věta, pokud je to možné, rozložena na tzv. jednotky analýzy (Analyseeinheiten). Jednotkou analýzy se rozumí taková posloupnost slovních tvarů, která je od jiné posloupnosti oddělena jistými interpunkčními znaménky, spojkami a vztažnými slovy; téměř vždy plní tuto funkci středník, dvojtečka.[5] Vydělené jednotky analýzy jsou rozlišeny na úplné, jednoznačné, a na neúplné, víceznačné. Úplné jednotky jsou představeny 15 typy, označenými čísly 1 až 15; patří sem nejen hlavní věty oznamovací jako WIR HABEN UNS EIN HAUS GEBAUT (typ 5), vedlejší věty příslovečné jako DA ER NIEMANDEN ANTRAF (typ 14), GING ER WEITER, ale i věty citoslovečné jako ACH! (typ 2), vědy WAS TUN (typ 1) atd. Neúplné jednotky analýzy mají 22 typů, označených čísly od 21 do 45; tak např. věta DER HUND BELLT (typ 21) vystupuje jednak jako úplná hlavní věta, jednak jako neúplná vedlejší věta v souvětí ICH WEISS, DASS, SOBALD SICH JEMAND NÄHERT, DER HUND BELLT nebo věta NACH HAUSE KÄME (typ 47) je neúplná vedlejší věta v souvětí ER VERSPRACH, DASS ER, SOBALD DIE SITZUNG BEENDET SEI, NACH HAUSE KÄME atd.

Uvedenou víceznačnost neúplných jednotek je třeba odstranit a určité typy neúplných jednotek je třeba spojit. Dříve je však třeba vytvořit nominální a verbální skupiny uvnitř jednotek analýzy.[6] R. Rath popisuje (s. 99 až 110) vytváření nominálních skupin z jistých slovních tvarů, a to ve 4 redukčních skupinách: v (1) jsou spojeny slovní tvary a jejich příslušné slovní třídy na základě shody v rodě, čísle a pádu, v (2) genitiv je spojen s předchozím jménem, ve (3) se spojují koordinovaná jména a ve (4) se řeší ostatní případy. Vedle nominálních skupin vytvářejí se skupiny verbální (srov. H. Zimmermann, s. 110—115), a to ve dvou etapách: v první je rozhodnuto na základě seznamu více než sta verbálních skupin, je-li určitá verbální skupina analyzovaného textu úplná či nikoli; je-li úplná, dostane z uved. seznamu identifikační číslo, např. skupina verbum-infinitiv SIEHT LAUFEN dostane č. 2; je-li neúplná, pak v druhé etapě je spojena s jinou příslušnou neúplnou verbální skupinou; např. sloveso HAT, které je buď plnovýznamové, nebo pomocné, spojí se s GEARBEITET ve větě ER HAT GANZEN TAG GEARBEITET, a je tedy určeno jako pomocné sloveso.

Zajímavé postupy uvádí A. Rothkegel-Schramm (s. 116—132) při odstraňování víceznačnosti neúplných jednotek analýzy a při jejich spojování. Vychází při tom z jejich klasifikace (srov. výše) a z možných i nutných kombinací. Jedním ze tří uvedených postupů je spojení dvou neúplných jednotek v jednu úplnou, jinak řečeno spojení částí vět, jež jsou odděleny vsuvkou. Pro jednotlivé typy neúplných jednotek je sestavena řada tabulek představujících jejich kombinační možnosti. Tak např. neúplná jednotka č. 21 má celkem šest kombinačních možností, z nichž jedna zní takto: Je-li levá neúplná jednotka typu 21 a pravá typu 47, pak výsledná úplná spojená jednotka je typu 5 — v příkladu MAN DENKE (21), UM EIN KONKRETES BEISPIEL ZU NEHMEN (7), AN DEN GRUND DER GLEICHHEIT VOR DEM GESETZ (47) vytvářejí neúplné jednotky 21 a 47 úplnou jednotku, hlavní oznamovací větu, tedy typ 5. Vložena je věta typu 7.

Tak tedy dospívá stroj od slovních tvarů přes jejich spojení v nominální a verbální skupiny až k větě. V rámci věty se pak řeší odstraňování pádové homonymie (srov. závěr šesté kapitoly s. 133—142). Poměrně snadno se řeší pádová homonymie pomocí rekčních vlastností slovesa. Mnohé případy pádové homonymie však lze řešit až s podporou sémantiky. Některé takové případy na[89]značuje R. Dietrich (s. 150—164) ve volně připojeném exkursu, který se zabývá možnostmi sémantické analýzy. Výchozím pojmem je pojem tzv. sémantické konstituentní třídy (semantische Konstituentenklasse). Přestože je obtížné tyto třídy konstituovat, uvádí autor seznam 21 takových tříd u slovesa (např. proces-stav, činnost, pohyb, zaměřenost na objekt, věcný objekt atd.) a seznam 19 tříd u jména (např. časové jednotky, lidé, zvířata, pocity, politické pojmy atd.). Podobně jako při syntaktické analýze jsou slovním tvarům přiřazovány údaje o slovní třídě, je také při sémantické analýze každému slovnímu tvaru přiřazen tzv. významový index, tj. příslušné kombinace sémantických konstituentních tříd. Teprve pak jsou zjišťovány vztahy mezi jednotlivými významovými indexy, a tak jsou tedy řešeny problémy, které zůstaly otevřeny při syntaktické analýze. Tak např. ve větě DAS HAUS SIEHT DAS KIND nelze pouze syntakticky řešit pádovou homonymií (sloveso sice vyžaduje akuzativ, ale slovní tvary DAS HAUS a DAS KIND jsou pádově homonymní, může jít o nominativ i akuzativ). Bere se proto dále v úvahu významový index slovesa i jmen. Na základě tzv. koordinačního pravidla je jako nominativ určeno to jméno, které ve svém významovém indexu má jako sémantickou konstituentní třídu buď údaj lidé, nebo zvířata. Je to slovní tvar DAS KIND, DAS HAUS je tedy akuzativ. Sémantická analýza takto doplňuje syntaktickou. Reprodukoval jsem pouze jeden příklad. Mnoho otázek sémantického charakteru však zůstává otevřeno.

Závěrem shrnujeme: Kniha saarbrückenských germanistů popisuje operativní gramatiku, založenou na rozsáhlém materiálu, která umožňuje strojovou syntaktickou analýzu normální německé věty, jak jsem měl možnost vidět v Počítacím středisku saarbrückenské university. I když je třeba pro dokonalejší analýzu ještě vyřešit řadu otázek (např. v posledních etapách analýzy, jimiž je spojování jednotek analýzy a řešení pádové homonymie nebo při lemmatizaci, tj. při sestavování slovníku slovních kmenů), myslím, že dosavadní výsledky i současné možnosti mladých lingvistů pracujících za vedení H. Eggerse, jsou předpokladem i zárukou pro další úspěšný vývoj projektu syntaktické analýzy.


[2] Srov. např. I. A. Mel’čuk, Avtomatičeskij sintaksičeskij analiz, Novosibirsk 1964.

[3] Příklady uvádíme velkými písmeny, jako je tomu v knize, neboť stroj má jen abecedu velkých písmen.

[4] Srov. H. Eggers, Untersuchungen zum Homographen SEIN, Syntax und Datenverarbeitung 2, 140—155, Wiesbaden 1966.

[5] Srov. k tomu již dříve např. u nás P. Piťha, Rozlišení funkcí koordinačních spojek, AUC, Philol. SlavPrag III, 1961, s. 186—192.

[6] Srov. např. u nás M. Těšitelová, K typologii slovanského slovníku z hlediska kvantitativního (na českém materiálu), Čs. přednášky pro VI. mezinár. sjezd slavistů, Praha 1968, 95—99.

Slovo a slovesnost, volume 32 (1971), number 1, pp. 86-89

Previous Karel Pala: Strojová lingvistika — skutečnost nebo sen?

Next Jiří Kraus, Ludmila Uhlířová: Meyerova-Epplerova kniha o informační teorii v novém vydání