Časopis Slovo a slovesnost
en cz

Z problematiky prediktivní analýzy

Jarmila Panevová, Ludmila Uhlířová

[Discussion]

(pdf)

Из проблематики предиктивного анализа / Quelques problèmes de l’ analyse de la prédication

Řada pracovišť, která se dnes ve světě zabývá strojovým překladem, přistupuje k praktickým otázkám svého oboru z nových hledisek, která obohacují přímo lingvistickou teorii. Lingvisté ve spolupráci s matematiky a logiky řeší např. otázky týkající se vztahu přirozeného jazyka a stroje (automatu), zkoumají vztahy jazyků přirozených a umělých atd. Oba uvedené okruhy problémů nacházíme v práci skupiny výpočetní laboratoře Harvardské university (The Computation Laboratory of Harvard University), jedné z nejaktivnějších skupin pracujících na výzkumu strojového překladu (dále SP), která za vedení A. G. Oettingera dosahuje velmi dobrých praktických i teoretických výsledků. Naše zpráva se týká tří svazků ze série zpráv o výzkumech tohoto centra, které jsou u nás k dispozici.[1]

První ze zpráv navazuje na práci týkající se harvardského automatického slovníku (dále HAS), tj. rozsáhlého slovníkového systému, který slouží jednak k doslovnému překladu z ruštiny do angličtiny, jednak tvoří základ výzkumů dalších. Je stále doplňován a podrobněji rozpracováván.

Navazujeme zde na dřívější zprávu o HAS[2] ve snaze ukázat, které dílčí otázky byly řešeny v pozdějších etapách práce, popř. nebyly zahrnuty do knižně vydané monografie, a vyložit systém prediktivní analýzy, na niž se v Harvardu soustředila poslední etapa prací v oblasti SP a který pokládáme za nejslibnější systém syntaktické analýzy pro strojový překlad v současné době.

Všechny příspěvky v prvním ze sborníků (celkem 19 od 15 autorů) velmi těsně souvisejí s již existujícími programy nebo skupinami programů v HAS; patří vesměs ještě do doby před vybudováním teoretických základů prediktivní syntaktické analýzy. Jejich tematiku lze shrnout zhruba do pěti okruhů (a - e).

a) Frekvenční programy slouží k uspořádání a třídění jednotek HAS a analyzovaných textů podle nejrůznějších hledisek. Zjišťuje se v nich, jaké aspekty anglické flexe jsou pro syntézu při překladu do angličtiny nejdůležitější. Navazují na jiné, již dříve připravené programy, čímž se jednak ušetří práce programátorů a jednak se programy kontrolují. Výsledků frekvenčních výpočtů bylo mj. použito k hrubému odhadu rozložení slovních tříd a morfologických kategorií angličtiny v souboru 15 odborných textů (880 vět), dále ke studiu pádové homonymie ruských substantivních koncovek a ke stanovení rozložení délky vět podle počtu slov v ruském vědeckém textu. Publikované výsledky jsou velmi podrobné a přinášejí některé zajímavé [145]poznatky; např. program, který by počítal s maximální délkou věty 50—60 slov, by nezahrnul asi 7 % vět daného souboru ruských textů (modus leží v intervalu 16—20 slov, medián v intervalu 21—25 slov).

b) Z oblasti morfologických výzkumů je nejdůležitější program pro úplnou morfologickou syntézu (skloňování a časování) angličtiny, získaný na základě materiálu v HAS (asi 25 000 hesel). K programu syntézy jsou připojeny přehledné a podrobné tabulky tříd a podtříd (např. tzv. pravidelná anglická slovesa jsou zde rozdělena do 8 tříd); program zachycuje i všechny typy nepravidelností. Byly vypracovány i programy pro vyhledávání výjimek z HAS, pro odstraňování morfologické homonymie na základě gramatické informace uložené v slovníku a program pro automatickou klasifikaci některých typů ruských slov podle slovních druhů.

c) Dílčí otázky kódování a úprav jednotlivých programů HAS (např. návrh na kód ruských předložek) se soustřeďují většinou na popis technických detailů, takže jsou pro čtenáře, který není podrobně seznámen se systémem kódování HAS, méně přístupné. Je ovšem nutno ocenit celkovou propracovanost systému a skloubenost jednotlivých složek, dovolující mnohostranné a efektivní využití všech jeho programů.

d) Z oblasti automatického sestavování programů zaslouží zvláštní pozornosti zejména tzv. konečná redakce překladu (postediting); hrubý doslovný překlad pořízený počítačem na základě HAS převádí člověk do čistého idiomatického překladu podle určitého předem stanoveného postupu. Tento postup může sloužit jako model automatického překladatele, který má v budoucnu tuto práci provádět. Informace, která je obsažena v redigovaných textech, vrací se zpět do systému programů, které automaticky zformulují pravidla a provedou syntézu algoritmu. Celý systém je zatím v stadiu experimentu; soustřeďuje se na zajištění systematičnosti v práci redaktora, neboť ta je předpokladem pro automatickou formulaci pravidel.

e) Syntaktické výzkumy nebyly ještě v době vydání sborníku NSF-3 předzvěstí prediktivního přístupu. Jde v podstatě o „mikroanalýzu“ kontextu pro řešení některých případů morfologické homonymie a o první pokus o automatickou analýzu některých jednoduchých syntaktických struktur v ruském textu (pokusné vymezení hranic předložkových frází a některých jmenných frází při analýze; zjišťování některých syntaktických prostředků pro kombinování jmenných frází do složitějších struktur). Přitom se využívá kromě morfologické informace uložené v slovníku také jednoduchých pozičních kritérií.

Ze všech zmíněných výzkumných oblastí považujeme za nejvýznamnější tři úkoly, na které zvláště upozorňujeme: Je to především originální myšlenka modelovat automatického překladatele tak, aby modelu bylo možno skutečně užít k automatickému překladu vyšší kvality; dále náročný úkol úplného formálního popisu anglické morfologie; konečně možnost a nutnost rozmanitého statistického zpracování materiálu pomocí víceúčelových a vysoce efektivních programů. Prediktivní analýza vyrostla tedy na pevně vybudovaných základech HAS.

Prediktivní analýza je systém automatické syntaktické analýzy založený na předpokladu, že ruskou, popř. anglickou větu lze procházet jednosměrně zleva doprava tak, že v kterémkoli bodě tohoto postupu je možno na základě predikcí slova vlevo předpovědět nejbližší syntaktické struktury, které budou následovat vpravo. Věta se tedy prochází pouze jednou odleva doprava, a proto je možno pro analýzu užít principu zásuvníkové paměti (pushdown store).[3] Predikce se vrství na sebe v predikčním „banku“ (prediction pool), který se chová jako zásuvníková paměť. Je to vlastně řada paměťových elementů, do nichž je informace ukládána nebo z nichž se vyjímá pouze z jednoho konce podle zásady „poslední dovnitř — první ven“ (last-in-first-out). Nové predikce se připojují nahoru a prověřuje se vždy nejprve predikce vrchní (poslední uložená).

Pro tuto metodu bylo využito především zkušeností z pokusů o mikrosyntaktický přístup [146]k analýze (NSF-3) a snahy odstranit nedostatky tohoto přístupu tím, že se k větě přistupuje jako k určitému formálně vymezenému a pravidelnému celku; ukázalo se, že z jednotlivých částí (slov a jejich spojení) lze usuzovat na strukturu věty jako celku. Dále bylo využito vrstevnatosti (nesting) syntaktické výstavby věty. Syntaktické struktury ve větě totiž vytvářejí struktury charakterizované určitou hloubkou: hlubší struktura vstupuje vždy jako jednotka do struktury s menší hloubkou (nulovou hloubku má řídící člen věty, v tomto pojetí predikát). Predikce jakožto předpovědi možných syntaktických funkcí slov ve větě se svým tříděním blíží klasickým větným členům (např. predikce subjektu, predikátu, objektu apod.), neshodují se však s nimi úplně; jsou explicitně definovány v experimentálním programu prediktivní analýzy.

Postup při prediktivní analýze se skládá ze dvou cyklů: testovacího a prediktivního. Každá z gramatických charakteristik, které byly zjištěny před syntaktickou analýzou, se srovnává s vrchní predikcí v „banku“. Zjistí-li se, že slovo splňuje predikci, připíše se slovu příslušná syntaktická funkce udaná predikcí. Zároveň se k ní zaznamená, kterým slovem byla daná predikce vyvolána; tyto dva členy spolu totiž tvoří dvojici, zhruba syntagma. Tímto postupem se daří řešit i tvarovou homonymii; výběr morfologické charakteristiky z několika homonymních je dán průnikem charakteristik s predikcí v „banku“. Pro jediný člen může být v „banku“ predikcí několik; způsobí-li některá homonymie, že slovo splní ještě další z predikcí v „banku“, poznamenává se další možný průnik jako tzv. „záloha“ (hindsight). Ta začne plnit svou úlohu v okamžiku, kdy se zjistí, že posloupnost predikcí v „banku“ neumožňuje analýzu věty a že tedy došlo k chybě (např. nějaké slovo zůstane neotestováno a v „banku“ již není žádná predikce ap.). Testování pokračuje tak dlouho, až je každá predikce otestována podle všech gramatických charakteristik slova.

Cyklus prediktivní záleží v tom, že se z „banku“ vymažou predikce splněné a ostatní predikce zamítnuté; některé dosud nesplněné predikce se modifikují a podle syntaktické platnosti analyzovaného slova přistupují do predikčního „banku“ shora nové predikce předpovídající další strukturu věty. Např. je-li substantivu přiřazena syntaktická platnost subjektu, pak predikce subjektu se vymaže z „banku“, predikce jádra predikátu se modifikuje tak, aby mohl být přijat jen predikát shodný se subjektem v osobě, čísle, popř. jmenném rodě, a navrch „banku“ jsou uloženy nové predikce (složený subjekt, atribut k subjektu).

Důležitým údajem u každé predikce je tzv. ukazatel jejího rozpětí (span indicator), který označuje, zda musí být predikce nutně během analýzy splněna nebo nikoli, zda se dvě v „banku“ po sobě následující predikce vylučují apod. Ukazatel rozpětí je tedy údajem důležitým pro úspornou práci při prediktivním cyklu.

Existují ovšem i slova, jejichž výskyt na určitém místě ve větě nelze predikovat (při analýze ruštiny např. předložky na začátku věty, příslovce ap.). Ta se pak v gramatice popisované M. E. Sherrym řeší různě; např. koordinace větných členů tak, že se v každém bodě analýzy předpokládá možný výskyt koordinovaného větného členu jako predikce, která nemusí být nutně splněna. Adverbia v ruštině slovosledně nevázaná se řeší tzv. neurčitou volbou (infinity choice), neboť tato slova zároveň nenesou žádnou informaci o výběru dalších predikcí a nevcházejí do žádného syntagmatu. Podle syntaktické koncepce bezprostředních složek, z jejíchž lingvistických předpokladů prediktivní analýza vychází, nerozhoduje, které ze slov — to, které predikci splňuje, nebo které ji vyvolalo — je řídící a které závislé; konstatuje se, že obě slova k sobě náležejí.

Prediktivní analýza angličtiny, i když je v obecných zásadách shodná s prediktivní analýzou ruštiny, je v konkrétním postupu již v mnohém zdokonalena. Repertoár syntaktických funkcí připisovaných analýzou ruským tvarům je poměrně chudý, např. pod doplnění (compound) se zahrnují různé druhy přívlastku, jmenný predikát aj., kdežto v analýze angličtiny jsou syntaktické funkce velmi podrobně rozděleny. Především se však ukázalo, že není výhodné trvat na tom, aby věta byla analyzována jediným průběhem (single-path-analysis). V případech konstrukční homonymie, kde bylo nutno užít predikcí v „záloze“, naráželo se na značné praktické nesnáze. Chyba při analýze se sice na konci zpravidla objevila, ale bylo obtížné se automaticky vracet [147]a zjišťovat, kde vznikla. Proto byla zvolena cesta jiná: metoda prediktivní analýzy byla rozšířena tak, aby mohly být správně analyzovány i syntakticky homonymní věty. Při homonymní konstrukci se založí nová větev syntaktické analýzy, tj. nová možná cesta otvírající jednu z možných struktur věty. Dojde-li se i touto větví k poslednímu slovu ve větě, znamená to, že věta má několik syntaktických struktur. Užívá se jednoho nebo více menších „banků“, z nichž každý funguje jako samostatná zásuvníková paměť a každý obsahuje soubor predikcí představujících jednu z možných cest k získání všech možných syntaktických struktur analyzované věty.

Autoři A. G. Oettinger a S. Kuno uvádějí jako příklad analýzu známé věty s konstrukční homonymií: They are flying planes. Na počátku je predikce věty a ta je splněna prvním slovem se slovní třídou „zájmeno osobní v nominativu“; tato slovní třída vyvolala 9 nových různých predikcí, protože větu začínající they je možno dále rozvíjet 9 způsoby. Vytvoří se 9 nových menších „banků“. Každá z vrchních predikcí 9 nových „banků“ je testována podle gramatických charakteristik následujícího slova (are); to náleží v gramatickém třídění pro prediktivní analýzu třem různým slovním třídám. Vznikne 27 nových průniků, z nichž některé jsou prázdné (jim odpovídající „banky“ jsou zrušeny); ke splněným predikcím se připojí nové predikce vyvolané slovem are. Takto se postupuje až k poslednímu slovu věty. Na výstupu dostaneme tři různé struktury dané věty (1. are flying — složený tvar slovesný, 2. flying — přívlastek k následujícímu substantivu, 3. interpretace možná jen syntakticky, nikoli sémanticky: flying — jmenný predikát, planes — jeho objekt).

Výhodou tohoto postupu (multiple-path-analysis) je kromě vyřešení syntaktické homonymie i to, že větvení na menší „banky“ umožňuje sledovat „predikční historii“ věty a snadno se v ní orientovat. Je jen zdánlivý dojem, že počet cest zde mnohonásobně roste. Již v podstatě prediktivního postupu samého spočívají omezení, zmenšující počet různých cest, a těchto omezení přibývá vhodným seřazením a uspořádáním jednotlivých úseků analýzy.

Experimentální anglická gramatika má přibližně 2 100 pravidel, 82 predikcí a 133 různých slovních tříd. Podle ní může být identifikována většina anglických vět v technických vědeckých textech (včetně otázek, rozkazů a různých typů vložených konstrukcí). Syntaktické funkce jsou poměrně jemně rozlišeny. Pro zajímavost uveďme, že rozbor věty They are flying planes se třemi různými výstupy trvá na počítači IBM 7090[4] necelou 1 vteřinu. Rozbor věty o 19 slovech se 2 různými strukturami na výstupu trvá asi půl minuty. (Nelze ovšem jednoznačně říci, že doba nutná k rozboru je přímo úměrná délce věty.)

V novější fázi prediktivní analýzy se na výstupu objevuje vedle syntaktické úlohy, kterou plní slovní třída, tzv. strukturní kód (structural code), který se skládá z řetězu charakteristik ukazujících vzájemnou závislost struktur, tj. také hloubku dané struktury. Strukturní kódy slov jsou jistým grafem syntaktické struktury věty. (Tato zajímavá část prediktivní syntaxe je dosud v stadiu výzkumu.) Autoři sami upozorňují na jisté obtíže tohoto způsobu reprezentace: některé základní členy struktury, jako subjekt, jádro predikátu, objekt jsou znázorněny na stejné rovině.

Prediktivní analýza vznikla na podkladě syntaktické analýzy I. Rhodesové a automatického zpracování syntaxe formálních jazyků pomocí Łukasiewiczova bezzávorkového zápisu, které provedli Burks, Warren a Wright. Je to nejen jedna z nejlépe promyšlených metod syntaktického rozboru pro strojový překlad, osvědčená již řadou experimentů a praktických výsledků, ale i systém teoreticky fundovaný a plodný. Je to vlastně model stavby věty jako navrstvení struktur různé hloubky, který je výhodný. Zdá se, že jeho přínosem budou i nové způsoby reprezentace věty.[5]

Autoři sborníků se zmiňují i o tom, že celý systém může být také experimentálním nástrojem pro studium distribučních a generativních gramatik. Tato myšlenka nebyla zatím, pokud je nám známo, nikde rozvedena. Lze si však představit, že by celý postup prediktivní analýzy bylo možno obrátit tak, aby sloužil ke generování správně tvořených vět v angličtině nebo ruštině.

[148]Vedle praktických přínosů pro SP znamená prediktivní analýza i základ teoretických výzkumů o vztahu ekvivalence mezi jednotlivými typy gramatik, kterým se Oettingerova skupina v dalších pracích zabývá a které se jí daří i formálně matematicky vyjádřit.

Dnes už můžeme konstatovat, že práce harvardské skupiny od první etapy budování automatických slovníků a doslovného překladu přes automatickou syntaktickou analýzu na základě prediktivní metody se nyní dovršuje organickým spojováním praktických výsledků s lingvistickou i matematickou teorií a formalizovaným vyjádřením tohoto spojení.[6]


[1] Mathematical Linguistics and Automatic Translation, Report No. NSF-3, Cambridge, Mass. August 1959, Report No. NSF-7, September 1961, Report No. NSF-8, January 1963.

[2] Viz L. Uhlířová, Zajímavá práce o lexikálních otázkách strojového překladu, SaS 24, 1963, 157—158.

[3] Viz též A. G. Oettinger, Automatic Syntactic Analysis and the Pushdown Store, PSAM 12, American Mathematical Society 1961, s. 104n. Některé obdobné myšlenky viz též Ch. F. Hockett, Grammar for the Hearer, tamtéž, s. 220n.

[4] Pokusy o prediktivní analýzu byly prováděny na počítačích Univac I, Univac II a IBM 7090.

[5] Při prediktivní analýze jde o postup „od textu k systému“, jak upozorňuje P. Novák, Některé otázky syntaktické analýzy z hlediska strojového překladu, SaS 23, 1962, 9n. Jeho poznámku je nutno ovšem chápat tak, že postup „text - systém“ (popř. postup opačný) není nutně spjat se základní syntaktickou koncepcí gramatiky závislostí.

[6] Srov. Ch. A. Greibach, Inverses of Phrase Structure Generators, NSF-11.

Slovo a slovesnost, volume 25 (1964), number 2, pp. 144-148

Previous Pavel Novák: Struktura jazyka a její matematické aspekty

Next František Daneš: Téma // základ // východisko výpovědi