en cz

O jednom typu syntaktické analýzy

Karel Pala

[Chronicles]

Об одном типе синтаксического анализа / Sur un type de l’analyse syntaxique

Kniha známého amerického lingvisty Z. S. Harrise String Analysis of Sentence Structure (Mouton & Co 1962, 70 s.) je první lingvistická práce vycházející v nové řadě „Papers on Formal Linguistics“, v níž se budou publikovat výsledky z různých oblastí lingvistického výzkumu s použitím nových formálních a matematických metod. Jde o upravenou podobu 15. č. série „Transformations and Discourse Analysis Papers“, kde se uveřejňují výsledky lingvistických výzkumů prováděných za vedení Z. S. Harrise v oddělení lingvistiky na universitě v Pensylvánii.

1. Řetězcová analýza (string analysis — dále SA)[1] představuje nový typ syntaktické analýzy angličtiny vedle již známé analýzy podle bezprostředních složek (constituent analysis — dále CA) a transformační analýzy (dále TA). SA rozkládá věty jazyka na jednu základní větu (obvykle větu holou nebo větu se strukturou podmět — přísudek — předmět) a přídavné členy (adjuncts, ev. přídatné rozvíjející členy), tj. posloupnosti slov, které samy nejsou větami a připojují se bezprostředně nalevo nebo napravo k základní větě nebo jinému přídavnému členu. Základní věta nebo přídavný člen je řetězec slov, slova jsou jeho segmenty jdoucí za sebou. Každé slovo je podle svých afixů nebo pozice ve větě přiřazeno jedné nebo více slovním kategoriím. Můžeme je nahradit symbolem jeho kategorie a dostat řetězec symbolů kategorií, tj. symbolický, metajazykový zápis řetězce.

Základní věta a přídavné členy se získávají tak, že z nějaké věty S postupně vyškrtáváme její části tak, aby zbytek byl vždy větou jazyka. Jak však poznáme, kdy je zbytek ještě větou jazyka? K tomu Harris používá informátorů, jak je v deskriptivní lingvistice běžné. Touto cestou získává seznam základních řetězců a přídavných členů.

Pro ilustraci uvádíme rozbor jedné věty: Today, automatic trucks from the factory which we just visited carry coal up the sharp incline. (Dnes automatické transportéry z továrny, kterou jsme právě navštívili, dopravují uhlí vzhůru po prudce nakloněné ploše): 1. základní věta trucks carry coal — 2. levý přídavný člen zákl. věty today — 3. levý přídavný člen slova „trucks“ automatic — 4. pravý přídavný člen slova „trucks“ from the factory — 5. pravý přídavný člen slova „factory“ — which we visited — 6. levý přídavný člen slova „visited“ — just — atd.

2. Stručná charakteristika a porovnání trojí analýzy (SA, CA, TA). SA byla již charakterizována. Analýza podle bezprostředních složek (CA) rozkládá větu na posloupnost složek (např. NP a VP) a každá tato složka se dále rozkládá na posloupnost složek nižší roviny. Tak se postupuje až ke konečným složkám, tj. morfémům. CA se považuje za vyhovující, jestliže k popisu všech vět jazyka postačuje několik nepříliš rozmanitých tříd složek a pravidel rozkládání. TA rozkládá každou větu jazyka na několik základních vět, které se však nemusí shodovat se základními větami zjištěnými v SA. Základní věty získané v TA mívají někdy větné přídavné členy, tj. členy neodvozené z vět. Na základních větách se operuje jednoduchými (unary) nebo binárními transformacemi.[2]

SA je tedy uprostřed mezi ostatními dvěma analýzami. CA rozkládá větu na složky, tj. nevěty, SA rozkládá větu na jednu základní větu a její přídavné čle[79]ny, TA redukuje použitím transformací celé věty na základní věty (např. He began to speak — He spoke) s větnými přídavnými členy a na konstanty, tj. operátory, které se přidávají k základním větám v průběhu transformací. Harris soudí, že všechny tři analýzy mohou být budovány navzájem nezávisle, ale všechny musí využívat výsledků morfologie.

Síla tří analýz je podle Harrise stejná: maximální množina vět charakterizovaná jednou analýzou je vlastní částí množiny charakterizované jinými analýzami. Rozdíly jsou jen v složitosti popisu. Toto tvrzení se však matematicky nedokazuje, a proto lze o něm pochybovat. Prozatím se porovnávala síla některých gramatik,[3] ale nikoli síla jednotlivých typů syntaktických analýz. CA je v určité podobě součástí frázové kontextové gramatiky,[4] která je matematicky přesně popsána. To nelze říci o transformační gramatice (tedy ani o TA v Harrisově pojetí). Předpokládá se sice, že frázová gramatika (CA je její částí) vymezuje stejnou množinu vět jako transformační gramatika, ale matematicky tato ekvivalence, pokud víme, popsána nebyla. Tím méně je jasno o vztazích SA k ostatním analýzám, protože SA rovněž nebyla, pokud víme, matematicky porovnána s jinými typy syntaktických analýz.

Rozdíly mezi třemi analýzami jsou podle Harrise v tom, jak tyto analýzy souvisejí s větami a větnými segmenty v každém daném popisu věty se tato věta vztahuje k výsledkům svého rozkladu a také k dalším větám, které mají podobné rozklady. Z tohoto hlediska CA ukazuje, do jaké míry lze věty jazyka chápat jako posloupnosti dvou složek, tj. podmětu a přísudku s větnými členy, které jsou k nim připojeny. SA uvádí ve vztah věty, které mají stejné základní věty a stejné přídavné členy. TA jde dále v tom, že umožňuje ekonomičtěji popsat větnou strukturu a uvádí ve vztah věty, o nichž tušíme, že by měly k sobě patřit. TA rekonstruuje složkové věty z transformovaných segmentů, a proto říká o každé složce mnohem více než ostatní analýzy.

3. Axiomatizace řetězcové analýzy. Vyjdeme-li z toho, co bylo řečeno v odd. 2, je možné po menších úpravách definovat soustavu symbolických zápisů řetězců a pravidla jejich odvozování. Symbolický zápis řetězce, jeho vzorec, se chápe jako posloupnost segmentů skládajících se z určených slovních kategorií (N — subst., V — sloveso, A — adj., P — předložka aj.), podkategorií nebo disjunkcí kategorií; každý vzorec má určité výskytové (occurrence) vlastnosti. Z těchto vzorců můžeme odvodit posloupnosti slov přesně tak, jak se vyskytují ve větách jazyka, a naopak z věty jazyka lze identifikačním postupem dostat vzorec řetězce. Definovaná soustava (seznam) řetězců je budována (jako ostatně celá SA) formalizovaně a obsahuje osm typů základních řetězců; jsou to v podstatě základní větné typy angličtiny. Uvádíme v přehledu jejich vzorce:

(1) vět se strukturou podmět-přísudek-předmět, tj. nejfrekventovanější typ vět v angličtině, Trucks carry coal;

(2) vět tázacích, Will he come?

(3) vět rozkazovacích, Go home! Wash yourself!

(4) vět s důrazným přízvukem, I do have some;

(5) vět s fingovaným podmětem, It seems that he did it;

(6) existenciálních vět, There is a man;

(7) vět jako Nearby sat a sailor;

(8) vět jako Him we restrained from going.

[80]Seznam dále obsahuje přídavné řetězce, tj. adnominální, adverbální, adjektivní, předložkové, větné a tzv. řetězce x, které spolu se znakem K slouží k definování koordinace větných členů a vět. Pravidla představující druhou část axiomatiky popisují, jak se k základním řetězcům připojují další řetězce. Jde tedy o to, že se každému slovnímu řetězci přiřazuje řetězec slovních kategorií, tj. v poslední instanci jeden ze vzorců uvedených v seznamu. Tím je dána rozpoznávací procedura; současně s ní lze provádět také rekognoskativní proceduru, při níž se zjišťuje, zda věty jazyka jsou správně tvořeny. Při rozkládání se snažíme najít ve větě jeden ze základních vzorců (1—8) a příslušné přídavné členy. Jestliže po rozložení věty nezbude žádný přídavný člen navíc, věta je tvořena správně.

Protože SA je budována formalizovaně, bylo ji možno vyjádřit v podobě algoritmu a zaprogramovat pro samočinný počítač. Program byl vyzkoušen v r. 1959 na samočinném počítači Univac, který rozpoznával všechny anglické věty typu 1. V programu se počítalo i s rozlišováním slovníkové a syntaktické homonymie. Počítač nerozpoznával idiomatické řetězce, ale program by nebylo obtížné doplnit. Počítač sloužil jako experimentální základna a ověřoval lingvistickou práci.

Závěry. SA je syntaktickou analýzou jazyka (angličtiny), ale je budována tak, že lze použít obráceného postupu a dostat určitý typ syntézy jazyka. Harrisův seznam vzorců by v tomto případě odpovídal Chomského symbolu S pro větu. — SA je založena na výskytových vlastnostech slov (slovních kategorií), tj. syntaktická charakteristika slova je dána jeho výskytem (pozicí) ve větě a teprve na druhém místě jeho afixy. Vychází se především z anglického gramatikalizovaného slovosledu. Pro angličtinu je tento postup jistě velmi vhodný, ale pokud jde o jiné jazyky, zejména slovanské, bude zřejmě vyhovovat méně. V SA se neužívá pojmu gramatické závislosti,[5] přesto je však patrno, že je mezi ostatními analýzami nejbližší závislostním gramatikám. Závislostní gramatiky pracují s asymetrickým vztahem: řídící člen — závislý člen; SA pracuje rovněž s asymetrickým vztahem: základní řetězec — přídavný řetězec, přičemž přídavné řetězce se připojují nalevo nebo napravo k základnímu nebo jinému řetězci. SA se liší v tom, že asymetrický vztah buduje především na pozicích slov ve větě (na jejich pořadí), zatímco v závislostních gramatikách není tento údaj tak důležitý. Harrisova práce je zároveň výstižnou studií o anglickém slovosledu.

Bylo by velmi zajímavé, kdyby seznam řetězců a výskytové vlastnosti vzorců byly doplněny statistickými charakteristikami (četnostmi, popř. pravděpodobnostmi). V této souvislosti je vhodné poznamenat, že Harrisova teorie připouští výjimky (některé věty nedokáže analyzovat), a v tom smyslu lze mluvit o axiomatické teorii s pravděpodobnostním charakterem některých pravidel. — Harrisova řetězcová analýza jasně dokumentuje plodnost využití formálních a matematických metod v lingvistice. Další vývoj ukáže, jaké místo zaujme zejm. mezi postupy algebraické lingvistiky, zda jí bude možno využít i v aplikacích, tj. v strojovém překládání nebo při automatickém zpracovávání jazykových informací. Harrisova práce však působí dojmem, jako by se autor izoloval od ostatních prací v tomto oboru a chtěl předložit co nejoriginálnější způsob syntaktické analýzy. Je třeba říci, že se to Harrisovi do značné míry podařilo.

[1] Viz též R. F. Longacre, Language 39, 1963, 473—478.

[2] Jde o TA rozpracovávanou Z. S. Harrisem a jeho spolupracovníky; toto pojetí se liší od transformační gramatiky Chomského, i když N. Chomsky je Harrisovým žákem. Harrisovo pojetí TA bude podrobně vyloženo v jedné z dalších prací, které vyjdou v „Papers on Formal Linguistics“; jejím autorem bude Henry Hiż.

[3] Srov. B. Palek, Informace o transformační gramatice, SaS 24, 140—151; M. Gross, On the equivalence of models of language used in the fields of Mechanical Translation and Information Retrieval, Actes du Séminaire OTAN sur Traduction Automatique de Venise, 1962, rotaprint.

[4] N. Chomsky, Three models for the description of Language, IRE Trans., vol. IT-2, s. 113—124.

[5] P. Novák, Některé otázky syntaktické analýzy (z hlediska strojového překladu), SaS 23, 1962, 9—20.

Slovo a slovesnost, volume 26 (1965), number 1, pp. 78-80

Previous Karel Horálek: Americké informace o směrech v současné lingvistice sovětské a východoevropské

Next Vlasta Straková: Sborník prací o otázkách slovanské lingvistické terminologie

Menu
About
Archive
New Journal Home
Archive search: