Časopis Slovo a slovesnost
en cz

O automatické syntaktické analýze

Jana Weisheitelová

[Chronicles]

(pdf)

Об автоматическом синтаксическом анализе / A propos de l’analyse syntactique automatique

Meľčukova práce[1] přináší popis automatické syntaktické analýzy textu, která je jednou z částí úplné gramatické analýzy nutné při strojovém překladu. Práce se týká pouze syntaktické analýzy, algoritmus morfologické analýzy, který ji nutně předchází, byl publikován již dříve.[2] Algoritmus syntaktické analýzy je sestaven na základě informací o ruském jazyce, které autorovi poskytly texty vědeckotechnické a populárně vědecké literatury (stranou ponechává zvláštnosti uměleckého stylu a mluveného jazyka). Autor využívá ve své práci poznatků tradiční lingvistiky o ruské syntaxi a tam, kde ty nestačí, uvádí vlastní řešení, kterým však přikládá pouze dočasný význam (např. určování hranic mezi syntaxí a sémantikou). Hlavní předností Meľčukovy práce je, že způsob sestavení algoritmu [99]analýzy ruského textu dovoluje, aby byl využit i při analýze jiných jazyků. Je to umožněno tím, že algoritmus analýzy se v podstatě skládá ze dvou složek, z pomocné (ta by pro každý jazyk musela být vypracována zvlášt) a obecné, tzv. vlastního algoritmu, který má mít univerzální využití. V pomocné složce jsou nejdůležitější tabulky konfigurací, tzv. syntaktický slovník jazyka. Vlastní algoritmus obsahuje pouze příkazy, jak s konfiguracemi pracovat, chápe se jako čistě teoretický úkol bez ohledu na praktické cíle a provádění na některém konkrétním samočinném počítači.

V úvodu autor definuje analýzu jako přechod od textu (v běžné grafické formě) k jeho smyslu (tj. k souhrnu sémantických elementů, které jsou spojeny určitými syntaktickými vztahy); tento přechod se uskutečňuje na základě dostatečných informací o daném jazyce. Dále se pak formuluje pět hlavních požadavků kladených na syntaktickou analýzu: (1) rozložení věty na části, (2) rozlišení syntaktické homonymie, (3) nalezení a zpracování frazeologismů, (4) získání informací o jednotkách textu, (5) zjištění vztahů mezi jednotkami textu. Mezi uvedené požadavky nejsou zahrnuty odkazovací zájmena a eliptické konstrukce; těmito problémy se autor v práci nezabývá. Proces syntaktické analýzy pak se dělí na analýzu uvnitř segmentů a na analýzu mezi segmenty. (Algoritmus pro tuto část analýzy je zpracován L. N. Jordanskou a v práci není uveden.)

V první kap. se objasňují principy a vlastnosti algoritmu analýzy uvnitř segmentů. Syntaktická analýza se zde opírá o závislostní teorii, pouze ve výjimečných případech o metodu bezprostředních složek (např. u několikanásobných větných členů). Výsledek analýzy je zaznamenán pomocí souboru binárních vztahů, které autor nazývá vztahy bezprostřední „dominace“ (otnošenija neposredstvennoj dominacii); k zobrazení těchto vztahů mu slouží očíslované šipky, směřující od členu řídícího k závislému. Počet vztahů bezprostřední dominace závisí na tom, kde se vede hranice mezi syntaxí a sémantikou. V práci je použito celkem 31 vztahů:

(1) vztah predikativní

     

(práce začala);

(2) vztah prvního objektu

    

(začít práci);

(16) určení okolnostní

              

(číslo je zapsáno na pásce);

(27) omezující

     

(pouze čísla ……) atd.

Tyto vztahy byly vybrány čistě empirickým způsobem a jediným kritériem (podle slov autorových) byl dostatečný počet, který by zachoval smysl textu.

Autor rozlišuje tři typy jednotek textu (slovní tvar, segment, fráze), každá jednotka má svou podobu výchozí a konečnou. V analýze uvnitř segmentu jsou objektem zpracování informace k výchozímu segmentu (výchozím segmentem se rozumí posloupnost slovních tvarů ohraničená interpunkčními znaménky a některými spojkami) a výsledkem je odhalení vztahu mezi slovními tvary (tj. je vybrán jeden z 31 „vztahů bezprostřední dominace“). Během analýzy se nalezené jednotky textu srovnávají pomocí mnoha operací s tzv. konstantami jazyka, které jsou vymezeny syntaktickým slovníkem v podobě standardního zápisu — tabulky konfigurací. Konfigurace jsou různých typů, nejdůležitější jsou syntagmata, dále sem patří např. frazeologická spojení, analytické formy (spojení plnovýznamových slovních tvarů s pomocnými, např. předložkové vazby), tzv. supersyntagmata, kterými autor rozumí spojení na přechodu mezi syntagmatem a frazeologickým spojením, apod. Hledání v tabulce konfigurací je zjednodušeno tzv. syntaktickými adresami, jejichž podstatou je to, že každá jednotka textu v dané fázi analýzy získává údaj o tom, na kterém místě tabulky konfigurací bude ve fázi následující zpracována. Pořádek konfigurací v tabulce je svázán cykličností syntaktické analýzy. V textu se nejdříve zjistí nejzřetelnější vztahy mezi slovními tvary a ty potom pomáhají při zjišťování vztahů méně zřetelných atd.; v uvedeném algoritmu je celkem pět cyklů. Algoritmus obsahuje i mnoho pomocných údajů, které se týkají [100]např. případů, kde nebyl nalezen druhý člen konfigurace apod.

Meľčukova práce je sympatická pro svou snahu o celistvé zpracování analýzy ruského jazyka. Na její hlavní přednost, možnost obecného uplatnění vlastního algoritmu analýzy, jsme už upozornili. To je samo o sobě jistě velmi cenné, skrývá to však v sobě i mnoho obtíží; ty se týkají hlavně sestavení tabulky konfigurací, na jejichž správnosti a dostačujícím rozsahu podstatně závisí výsledek analýzy. Aby se uvedená možnost stala reálnou, bylo by třeba mít i podrobná kritéria pro sestavení těchto tabulek pro různé jazyky. Je také otázka, zda vztahy bezprostřední dominace (v podobě a počtu, jak je uvádí autor) poskytují dostatečný obraz o analyzovaném textu. Na práci je především nutno ocenit to, jak podrobně jsou v algoritmu zpracovány i případy, které se v textech vyskytují poměrně zřídka (to je jednou z příčin značné rozsáhlosti algoritmu).

Meľčuk sám upozorňuje na některé nedostatky své práce (např. na poměrně velký počet cyklů analýzy); je si vědom toho, že bude třeba opravit i některé lingvistické údaje. Kritické posouzení algoritmu by vyžadovalo ještě detailní teoretickou i praktickou prověrku. To však nebylo v našich možnostech, proto jsme se soustředili na přehled základních principů.


[1] I. A. Meľčuk, Avtomatičeskij syntaksičeskij analiz I. Vyd. Sibir. otd. AN SSSR, 1964, 356 s.

[2] I. A. Meľčuk, Morfologičeskij analiz pri mašinnom perevode, Problemy kibernetiki 1961/6, s. 207—276.

Slovo a slovesnost, volume 28 (1967), number 1, pp. 98-100

Previous Pavel Novák: Čítanka o struktuře jazyka

Next Pavel Novák: Překladový sborník „Matematičeskaja lingvistika“