Časopis Slovo a slovesnost
en cz

Ještě k užití teorie grafů v lingvistice

Jarmila Panevová

[Rozhledy]

(pdf)

Еще к применении теории графов в лингвистике / Encore une fois sur l’utilisation de la théorie des graphiques en linguistique

L. Nebeský ve svém článku v tomto časopise nedávno ukázal, jak se jeví vztah teorie grafů a lingvistiky zejména v některých novějších pracích z matematické lingvistiky.[1] Zaměřil se však po našem soudu spíše na práce vycházející z impulsů matematických, z formálních a matematicky zajímavých vlastností grafů, zejména V-stromů, a vyzývající k hledání případné lingvistické interpretace, hlavně v popisu větné struktury. Čtenáři SaS znají tento přístup z jiného článku L. Nebeského,[2] v němž autor, vycházeje ze studia vlastností neorientovaných V-stromů, vytyčuje pět problémů odpovídajících jejich jistým formálním vlastnostem. Navrhuje hledat lingvistickou interpretaci těchto problémů v oblasti závislostní syntaxe, ukazuje, že zatím se ji nepodařilo najít, a soudí, že to ani nebude jednoduché. Nelze tedy na základě formulace uvedených problémů odhadnout, zda nalezení této interpretace přinese takový výsledek pro lingvistiku, aby i lingvista se mohl cítit uspokojen.

Není jasné, jaké příčiny vedly L. Nebeského k tomu, že tentokrát nechal stranou ty práce užívající teorie grafů, které vycházejí z problémů lingvistických,[3] z potřeb explicitního popisu přirozeného jazyka a hledají adekvátní matematické prostředky. Z velké většiny jde o práce, kde přístup (nebo spíše impuls) od lingvistických problémů nic neubírá na korektnosti použitého matematického aparátu. Pokusíme se uvedený přehled o tyto práce — novější i starší — doplnit, neboť se domníváme, že při[336]nesly v lingvistice mnoho užitečného pro poznání větné struktury a mají pro spolupráci mezi matematiky a lingvisty základní význam. Půjde nám zde především o problémy z oblasti větné stavby (syntaxe). Necháme stranou frázový ukazatel jako typ grafu spojený s bezprostředně složkovým pojetím syntaxe a budeme se zabývat pracemi užívajícími grafů pro závislostní syntax, s níž se u nás obvykle pracuje.

Začneme pracemi zahraničními. Některé z nich jsou teoretickým podkladem pro přímé aplikační využití. Tento charakter mají práce Centra strojového překladu na universitě v Grenoblu. Systém strojového překladu je rozčleněn do posloupnosti modelů, z nichž každý využívá jistého matematického aparátu (např. konečných automatů, obecného algoritmu analýzy pro syntax bezprostředních složek ap.). Součástí syntaktického modelu M2 (pro syntaktickou analýzu) je etapa zvaná interpretace, kdy se transformuje frázový ukazatel na závislostní strom; na něm se pak provádí tzv. etiketáž, tj. přiřazení kategorií převodního jazyka. Tyto praktické úkoly vedly k vypracování modelu formalizujícího transformační pravidlo.[4]

V oblasti závislostní syntaxe a jejího matematického modelu jako základu pro vypracování nezávislých algoritmů strojového překladu se pracuje na Leningradské universitě. Formálním modelem, na němž pracují zejména S. Ja. Fitialov a G. S. Cejtin, je závislostní gramatika valentností.[5] Fitialov ve svých teoretických pracích mluví o závislostních strukturách, které lze zobrazit pomocí stromů; zabývá se vztahem mezi bezprostředně složkovými a závislostními strukturami a jejich gramatikami a dokazuje ekvivalenci mezi nimi.[6] Vlastnosti správných syntaktických struktur na základě pojmu závislostního stromu vymezuje L. N. Jordanskaja,[7] jde o vlastnosti (mnohé z nich jsou v souvislosti s vlastností projektivity), které jsou vodítkem pro „filtry“ při syntaktické analýze. Axiomatizace pojmu fráze na základě vlastností „stát vlevo (vpravo) od“ a „řídit“ slovo, tedy vlastností, které jsou zachyceny právě grafem (srov. dále), byť i bez použití pojmů z teorie grafů, je obsažena ve stati M. I. Beleckého, V. M. Grigorjana, I. D. Zaslavského (Aksiomatičeskoje opisanije porjadka i upravlenija slov v nekotorych tipach predloženij, Matematičeskije voprosy kibernetiki i vyčislitel’noj techniki, Jerevan 1963, 71—85). Také práce A. V. Gladkého a I. A. Mel’čuka[8] o operacích prováděných na závislostních stromech vznikly z obdobných podnětů, tj. vyrostly z potřeby formalizovat některé pojmy používané při transfor[337]maci jediného stromu hloubkové lexikálně syntaktické struktury v její synonymní hloubkové struktury a poté v jejich struktury povrchové.

J. Kunze se zabývá formálními vlastnostmi závislostního stromu ve vztahu k projektivitě a k tak obtížně zachytitelnému jevu, jako je koordinace.[9]

Z prací domácích se lze zmínit o monografii L. Hřebíčka,[10] kterému jde o generativní model systému tureckých vět užívající grafů v jistém smyslu blízkých markovovským řetězům. Grafy zde užívané nemají vlastnosti stromů, autor připouští při generování posloupnosti slovních tříd představujících tureckou větu cykly (tj. zahrnuje i posloupnosti nekonečné, avšak ve skutečnosti žádná věta přirozeného jazyka není nekonečně dlouhá; bylo by proto přesnější mluvit o neomezené, nikoli nekonečné délce věty). Zůstává tu mnoho nejasností, např. vztah mezi množinou pravidel (s. 28n.), grafem G (s. 20) a strukturním popisem konkrétních vět (který musí zachytit, kolikrát a na které prvky bylo to které pravidlo uplatněno), dále co z vlastností tohoto grafového modelu je dáno vlastnostmi modelovaného jazyka a co je obecné (např. jak dalece je model vázán na slovosled typu „regens post rectum“). Není ani jasně charakterizováno postavení tohoto popisu z hlediska rozdílu mezi přístupem závislostním a bezprostředně složkovým (srov. s. 17 o „obvyklém“ a „binárním“ modelu). Jistě je záslužný pokus o výstavbu jednoduchého fungujícího formálního modelu, bylo by ovšem třeba zjistit, zda je tento model silnější než Yngveho model konečně stavové gramatiky.[11]

Také pražská koncepce funkčního generativního popisu češtiny vychází ze závislostního pojetí[12] a pracuje se v ní se závislostními V-stromy s dvojí relací definovanou na množině uzlů (relace podřazenosti a slovosledu). Strukturu propozice (věty) na tektogramatické (větněčlenské) rovině lze zachytit jako strom s uvedenými vlastnostmi.[13] Zkoumají se vztahy mezi grafy a jejich projekcemi, které lze zpracovat zásobníkovými automaty, a ukazuje se, že strom zachycující větu lze jednojednoznačně převést na lineární zápis zpracovatelný zásobníkovými automaty, z hlediska lingvistického (viz o. c. v pozn. 13).[14] Alternativní návrh formulace rekurzívního komponentu funkčního popisu (srov. P. Sgall, Functional Sentence Perspective in a Generative Description, PSML 2, Praha 1967, 203—225) umožňuje pomocí efektivní procedury vymezit zápisy propozic odpovídající vrcholovému orientovanému stromu. Vedle vyznačených prvků základního komponentu se tu definuje syntagma jako vrcholový strom. Tento aparát je využit k popisu slovesa a jeho intenčních doplnění (P. Sgall—E. Hajičová, A “Functional” Generative Description (Background and Framework), PBML 14, 1970, 3—38). Ukazuje se, že jím lze vymezit typy obligatorních a fakultativních aktantů slovesa i ve vzájemných kombinacích, o jakých (bez tohoto explicitního zpracování) mluví Fillmore.[15] Tento aparát dovoluje zachytit jak [338]strukturní uspořádání (typ aktantu), tak lineární uspořádání (stupnici výpovědní dynamičnosti); to znamená, že dvě věty lišící se pouze svým aktuálním členěním, se liší pouze jedním ze dvou uspořádání závislostního stromu.[16] V rámci tohoto popisu je poskytnuta vhodná základna pro začlenění nově zjištěných empirických faktů: např. nutnost rozlišovat vedle stupnice výpovědní dynamičnosti také hranici mezi kontextově zapojenou a kontextově nezapojenou částí věty (argumenty pro to srov. u P. Sgalla, Kontextové zapojení a otázková metoda, SaS 34, 1973, 202—211), vede k úvahám o jistém zjednodušení jedné z relací na závislostním stromu (týkající se umístění vrcholu z hlediska výpovědní dynamičnosti). Pracuje-li se tu se dvěma relacemi (definovanými na téže množině uzlů), překračují se tím snad z jistého hlediska hranice teorie grafů, to však nic neubírá na matematické korektnosti postupu. Je to postup obvyklý (i u L. Nebeského, např. v jeho monografii cit. zde v pozn. 2, zejm. s. 61n.) a pro lingvistickou interpretaci potřebný, neboť obě relace odpovídají dvěma různým jazykovým jevům (syntaktické závislosti a výpovědní dynamičnosti, popř. slovosledu).

Zjištění o vztahu negace (jejího dosahu) a hranice kontextového začlenění vedla k tomu, že negace byla zachycena jako zvláštní uzel ve stromě stojící bezprostředně před slovem nebo za ním; toto umístění souvisí s tím, zda sloveso je nebo není významově negováno a zda je součástí kontextově zapojené části nebo nikoli (E. Hajičová, Negation and Topic vs. Comment, Phil. Prag. 16, 1973, 81—93). Vysvětlení sémantiky slovesného času v souvětí se rovněž opírá o jeho závislostní strukturu; na základě empiricky zjištěného rekurzívního principu o referenčním bodu, vzhledem k němuž se určuje význam slovesného času a jehož umístění závisí na syntaktické stavbě souvětí, se dokazují dva teorémy pracující s pojmy jako uvozovat (řídit), bezprostředně uvozovat (řídit) ap., které se týkají vztahu mezi relativním a základním časem v souvětí (E. Hajičová - J. Panevová - P. Sgall, The Meaning of Tense and Its Recursive Properties, Phil. Prag. 14, 1971, 1—16, srov. zejm. § 3.2). Zpracování slovesné modality jako gramatému významového slovesa vede k nutnosti provádět změny závislostního stromu u takových modálních prostředků jako být schopen, být s to (srov. práce E. Benešové, např. in J. Panevová - E. Benešová - P. Sgall, Čas a modalita v češtině, AUC-Phil. Monographia 34, Praha 1971, zejm. s. 120 a 147).

Po matematické stránce se zkoumá vztah aparátu užívajícího závislostní stromy a lineární formule. Byly definovány kontextové závislostní gramatiky (Z-gramatiky) generující projektivní stromy. Zkoumají se vztahy ekvivalence mezi Z-gramatikami (resp. jejich projekcemi) a kontextovými gramatikami. Dochází se k tomu, že jsou v jistém smyslu ekvivalentní. Obsahuje-li jistá Z-gramatika pouze nekontextová pravidla, je také ekvivalentní jisté nekontextové gramatice.[17]

Ukazuje se, že pro nová lingvistická zjištění lze mj. využít toho, co je známo z teorie grafů, a tak tyto jevy jednotně popsat. Na základě těchto zjištění (např. o aktuálním členění, pořadí a typu aktantů, negaci, významu času) lze ukázat, že teorie grafů představuje vhodnou matematickou bázi pro popis významové i syntaktické struktury věty. Z lingvistického rozlišení těchto dvou rovin větné stavby plynou i některé další interpretace vlastností stromů a jejich ohodnocení (např. vztahu mezi dvojicí uzlů ohodnocených na tektogramatické rovině jako Rpat (patiens), popř. Ri (nepřímý předmět) odpovídá na syntaktické rovině závislost vyjádřená rekcí, vztahu Rdet (determinace) za jistého ohodnocení uzlů odpovídá závislost vyjádřená kongruencí ap.). V pracích matematických jde o hlubší propracování aparátu potřebného pro lingvistický popis a zejména o jeho porovnání s jinými typy popisů, o nichž už bylo dokázáno, že mají zajímavé matematické vlastnosti.


[1] Užití grafů v lingvistice, SaS 33, 1972, 329—331.

[2] Některé otázky závislostní koncepce syntaxe, SaS 32, 1971, 20—25, srov. též jeho monografii Algebraic Properties of Trees, Praha 1969.

[3] Srov. např. starší práci L. Nebeského O jedné formalizaci větného rozboru, SaS 23, 1962, 104—107, která je u nás patrně prvním pokusem formalizovat závislostní rozbor věty pomocí pojmů z teorie ohodnocených orientovaných stromů. Opírá se přitom o neformální pojetí Šmilauerovo.

[4] G. Veillon - J. Veyrunes - B. Vauquois, Un metalangage de grammaires transformationneles, Document G, 23000-A, Janvier 1937 (srov. též ruský překlad in Sbornik perevodov po voprosam informacionnoj teorii i praktiki 16, Moskva 1970, 86—116), titíž autoři, Syntaxe et Interpretation (ref. na 1. konferenci o strojové lingvistice, New York 1965).

[5] Srov. B. M. Lejkina - T. N. Nikitina - M. I. Otkupščikova - S. Ja. Fitialov - G. S. Cejtin, Sistema avtomatičeskogo perevoda, razrabatyvajemaja v gruppe matematičeskoj lingvistiki VC LGU, Naučno-techničeskaja informacija, 1966, 1, 40—50, S. Ja. Fitialov, O modelirovaniji sintaksisa v strukurnoj lingvistike, Problemy strukturnoj lingvistiki, Moskva 1962, 100—114, a dále týž, Ob ekvivalentnosti grammatik NS i grammatik zavisimostej, ib. 1967, 71—102.

[6] Tento vztah je studován také v pracích D. G. Hayse (Dependence Theory: A Formalism and Some Observations, Language 40, 1964, 511—525) a H. Gaifmana (Dependency Systems and Phrase Structure Systems, Information and Control 8, 1965, 304—337). Neformálně se problematikou převedení závislostního stromu ve strom bezprostředně složkový a naopak zabývala Je. V. Padučevová, O sposobach predstavlenija sintaksičeskoj struktury predloženija, VJaz 1964, č. 2, s. 99—113. Dále jsou těmto otázkám věnovány práce M. I. Beleckého (např. Beskontekstnyje i dominacionnyje grammatiki i svjazannyje s nimi algoritmičeskije problemy, Kibernetika 1967, č. 4, s. 90—97).

[7] L. N. Jordanskaja, Svojstva praviľnoj sintaksičeskoj struktury, Problemy kibernetiki 11, Moskva 1964, 215—244.

[8] Srov. např. práci cit. L. Nebeským (o. c. pozn. 1), dále A. V. Gladkij - I. A. Meľčuk, Grammatika derev’jev, Informacionnyje voprosy semiotiki, lingvistiki i avtomatičeskogo perevoda, vyp. 1, Moskva 1971, 16—41, pokud jde o práce matematicky zaměřené, pokud jde o jejich lingvistické využití, srov. práce Žolkovského, Meľčuka, Apresjana o modelu „smysl-text“ (zejména ve sb. Mašinnyj perevod o prikladnaja lingvistika, č. 8—14).

[9] J. Kunze, Die Auslassbarkeit von Satzteilen bei Koordinationen Verbindungen im Deutschen, Berlin 1972.

[10] L. Hřebíček, Turkish Grammar as a Graph, Oriental Institute, Prague 1971.

[11] Srov. kritiku takového modelu u N. Chomského Three Models for the Description of Language, IRE Trans., Vol. 1, T-2, 3, 1956, 113—124 a On the Notion „Rule of Grammar“, Str. of Lang. and its Math. Aspects, PSAM 12, 1961, 6—24 (v českém překladu Syntaktické struktury, Praha 1966, 165—190).

[12] Jak je dobře známo, naší bohemistice nebyl podobný způsob zachycení větné struktury vzdálen; mnoho tu přinesly práce Vl. Šmilauera (Novočeská skladba i Učebnice větného rozboru).

[13] Srov. už např. referát P. Sgalla na pražském kolokviu o algebraické lingvistice r. 1964, otišt. v čas. Kybernetika 2, 1966, 181—190. Dále pak týž, Generativní popis jazyka a česká deklinace, Praha 1967, P. Sgall - L. Nebeský - A. Goralčíková - E. Hajičová, A Functional Approach to Syntax, New York 1969, srov. rec. v SaS 31, 1970, 180—181.

[14] Matematický důkaz teorému o jednojednoznačnosti tohoto zobrazení podává D. Pospíšil, On a Linearization of Projective W-Trees, PBML 6, 1966, 44—68.

[15] Např. Ch. J. Fillmore, The „Case for Case“, Universals in Ling. Theory (ed. E. Bach, R. Harms), New York 1968, 1—88.

[16] P. Sgall, Topic, Focus, and the Ordering of Elements of Semantic Representations, Phil. Prag. 15, 1972, 1—14, týž, Fillmore’s Mysteries and Topic vs. Comment, Journal of Linguistics 8, 1972, 283—288.

[17] M. Plátek, O Z-gramatikách (připr. kand. dis.).

Slovo a slovesnost, ročník 34 (1973), číslo 4, s. 335-338

Předchozí Petr Sgall: Příslovečné určení v generativním popisu slovenštiny

Následující Miroslav Jindra: Celostátní seminář jazykovědců-komunistů o lingvistice marxisticky orientované