Časopis Slovo a slovesnost
en cz

Pracovní výsledky leningradské skupiny z oblasti algebraické lingvistiky

Alla Bémová

[Discussion]

(pdf)

Рабочие результаты ленинградской группы алгебраической лингвистики / Les résultats de travail du groupe de Léningrad dans le domaine de la linguistique algébrique

Od konce 50. let pracuje na leningradské univerzitě skupina matematické lingvistiky (Laboratorija matematičeskoj lingvistiki pri Vyčislitel’nom centre Leningradskogo gosudarstvennogo universiteta (dále LGU), nyní při Institutu matematiky a mechaniky LGU), jejíž založení bylo těsně spojeno s praktickým cílem — s přípravou algoritmů pro strojový překlad (SP). Avšak již v prvním období přípravy SP se ukázalo (jako i na jiných podobných světových pracovištích), že složitost struktury přirozeného jazyka vyžaduje rozsáhlé formální zpracování nejrůznějších gramatických jevů, které nutně musí předcházet uskutečnění SP samému. Původní předpoklady se postupně měnily, ustoupilo se např. od plánovaného překladu z několika jazyků do několika jazyků pomocí převodního jazyka; nicméně i v současné době práce na přípravě SP zůstávají jedním ze základních momentů pracovní náplně skupiny LGU. Představu o pracovním zaměření skupiny za období asi od počátku 70. let a o jejích výsledcích podává několik sborníků.[1] Témata zpracovaná v těchto publikacích lze rozdělit do 4 okruhů: (1) strojový překlad, (2) informační systémy, (3) otázky jazykových modelů, (4) obecně lingvistické otázky explicitního popisu jazyka.

Práce na SP se uskutečňuje podle koncepce publikované již dříve[2] a soustřeďuje se hlavně na přípravu algoritmů překladu z angličtiny do ruštiny. Pro automatickou syntaktickou analýzu angličtiny se předpokládá využití matematického modelu navrženého Cejtinem. Jde o model obecnějšího typu než tzv. modely „filtrů“, založené na výběru přípustných (správných) gramatických struktur. Tyto modely se opírají o příliš přísná pravidla omezení a — jak ukázaly experimenty — gramatiky určené k jejich uskutečnění jsou příliš těžkopádné, i když dávají uspokojivé výsledky (zvláště při využití informace o pozičních vztazích slov ve větě). Novější varianta modelu[3] vychází z hypotézy, že kromě pravidel pro vytváření přípustných syntaktických struktur, je třeba rozlišovat struktury na základě preference (struktury základní, produktivní, fakultativní) tak, že každé přípustné syntaktické struktuře se připisuje určitá váha co do její závažnosti. Předpokládá se, že podobné rozlišování je vlastní samému systému jazyka. Gramatika pro analýzu angličtiny na základě tohoto modelu má dvě podstatné vlastnosti, snahu o simulaci postupu člověka v procesu překladu a princip preference gramatických konstrukcí.

Při porovnání překladu provedeného strojem a člověkem se ukázalo, že nejednoznačnost některých gramatických konstrukcí, zaregistrovaná strojem, byla snadno přehlédnuta člověkem. Jde zřejmě o to, že postup člověka při překladu je založen na komplexním vnímání textu, že mezi nejednoznačnými konstrukcemi člověk vybírá některou „dominantní“ strukturu, která je primární a která se vyřazuje pouze v těch případech, kdy se pro její realizaci nevyskytly vhodné podmínky. Takovými jednotkami, které člověk vnímá v textu jako celek, jsou především ustálená slovní spojení, frazeologismy a terminologická spojení; ty by měly být analyzovány nejdříve.

Preference jednotlivých konstrukcí se zatím udává intuitivně, avšak po důklad[338]ném zpracování jazykového materiálu bude míra závažnosti udána jednak ve slovníku, jednak v pravidlech gramatiky.

Při analýze se ve větě postupuje zleva doprava; zároveň se uvažuje několik nezávislých možných variant struktur, které se pak porovnávají mezi sebou podle míry závažnosti. „Nejtěžší“ varianty se vyřazují a již se neúčastní vytváření dalších struktur; tím se podstatně sníží počet konečných přípustných struktur a zjednoduší se celkový proces analýzy.

Studie o SP v uvedených sbornících jsou většinou věnovány dílčím lingvistickým otázkám v rámci přijaté koncepce. Z hlediska automatické analýzy textu je zpracován problém závorek, dvojteček a matematických formulí ve vědeckotechnických textech, srov. V. L. Zambržickij (1971), E. S. Antipenko (1973), N. L. Kirillovová (1973);[4] podrobně je popsána morfologická analýza ruštiny (G. S. Uljanovová, 1973); dva články jsou věnovány experimentálnímu ověřování analýzy ruštiny (T. D. Logačevová, M. S. Peršikovová, 1973, 1974).

Nejvíce příspěvků se týká problému, jak vytvořit informační dialogový systém (sistema „zapros — otvet“). Koncepce zpracování tohoto problému byla zformulována skupinou autorů.[5] V informačních systémech, v nichž se na jistý dotaz dává odpověď, rozlišují autoři dva typy: systémy rešeršní (dokumentační a faktografické) a logické.

Systémy prvního typu nejsou schopny dát odpověď, která není v žádném z dokumentů explicitně vyjádřena. Je však možno vytvořit takové systémy, z nichž může být taková informace vyvozena a zformulována na základě analýzy několika dokumentů. Proto se autoři rozhodují pro systém druhého typu, který s podobnou analýzou počítá a musí „sám“ použít znalostí, které jsou v něm uloženy.

Je-li pro daný systém zaveden nějaký soubor textů a pravidla, podle nichž lze vytvářet texty nové, pak se po položení dotazu sám musí rozhodnout, je-li schopen zkonstruovat text, který je odpovědí na příslušný dotaz. Z toho plyne, že v takovém systému musí být formálně zachyceny obsahové vztahy. V navrhované podobě budou tyto vztahy zachyceny v pojmech tzv. „vnitřní“ struktury, oproštěné od některých vlastností přirozeného jazyka; proto její vymezení nabývá zvláštní důležitosti.

Elementární jednotky vnitřní struktury jsou dvojího typu: elementární objekty a funktory, které mají „místa“ pro obsazení (dřívější termín byl predikát). Obsazením míst funktorů se tvoří další jednotky vnitřní struktury, situace a složené objekty. V závislosti na způsobu obsazení míst funktorů a na výsledné jednotce tohoto obsazení se funktory samy dělí na různé druhy. Pomocí funktorů se vytvářejí tzv. situace, kterým v pojmech přirozeného jazyka odpovídá smysluplný text (věta) a v pojmech informačního systému to, co lze považovat za odpověď na dotaz. Pravidla vytváření nových textů na základě zavedených vstupních textů se zatím dělí do tří skupin: (1) pravidla zjišťování různých způsobů vyjádření textu v jedné a téže situaci, (2) pravidla vyčleňování části situace, (3) pravidla ekvivalence mezi dvěma různými situacemi.

Vypracování takových pravidel vyžaduje řešit celou řadu jazykových otázek spojených zejména s přechodem od povrchové (vnější) struktury textu k její struktuře vnitřní.

Všechny studie týkající se informačního systému jsou zpracovávány v rámci navržené koncepce. K nejdůležitějším otázkám patří vztah povrchové a vnitřní [339]struktury.[6] Závažným problémem je výběr takových informativních elementů textu, které musí být nutně zachyceny ve vnitřní struktuře; jejich oddělování od neinformativních elementů, které slouží pouze organizaci vnější podoby textu a ve vnitřní struktuře, by bylo zbytečné (srov. stať N. S. Jakovlevové o funkci slova naoborot (1971), N. L. Kiričenkové o vztahu inkluze mezi objekty (1971), B. M. Lejkinové o vztahu jazykových a mimojazykových faktorů při chápání řeči (1974)). Zároveň je však důležité mít ve vnitřní struktuře takové elementy, které nejsou explicitně vyjádřeny v struktuře povrchové, avšak pro zachycení obsahových vztahů jsou nutné (tak L. N. Kuvaldinová se zabývá anaforickými vztahy (1971), V. Ju. Morevová doplněním eliptických vět (1974), M. I. Otkupščikovová reprezentací zájmen (1973) aj.). Pro vymezení některých vztahů (úloha zástupných slov, anaforické vztahy) je nezbytná analýza souvislého textu v celcích větších než věta, a proto řada příspěvků je věnována analýze souvislého textu (I. M. Novická (1971), L. N. Smirnovová (1973), M. I. Otkupščikovová (1974)). — Orientace této skupiny na dialogové systémy logické zahrnující teorii vyplývání je velmi záslužná z hlediska perspektivnosti těchto aplikací i přínosu pro explicitní jazykový popis (pro sémantiku, rozbor nadvětných celků atd.).

Práce na SP a informačních systémech souvisí nejen s problémy konkrétního jazykového zpracování, ale rovněž s teoretickou lingvistikou, sémantikou, teorií algoritmu, informatikou, matematickou logikou a matematikou. — Je známa řada dřívějších prací členů leningradské skupiny v oblasti teorie gramatik a modelování. Velkým přínosem jsou tu např. práce Fitialovovy,[7] kde se definuje orientovaná nekontextová gramatika spojující některé rysy gramatiky závislostní a frázové. Tyto práce byly u nás už podrobně zhodnoceny a porovnány s přístupem Sgallovým, který rovněž pracuje v rámci své funkční generativní gramatiky s gramatikou závislostní.[8] Cejtin a Fitialov dále pracují na zobecnění závislostních gramatik. Na základě modelu „filtrů“ navrženého Cejtinem se vypracovává gramatika pro analýzu angličtiny.[9]

Práce z oblasti sémantiky programovacích jazyků jsou dnes zatím ojedinělé a průkopnické; nabízí se tu srovnání se sémantikou přirozeného jazyka. Lze proto uvítat Cejtinovu stať o sémantice ALGOLU.[10] Ve sbornících uvedených v pozn. 1 se do této tematiky řadí články o sémantice informačních jazyků (G. M. Iljin 1973, I. I. Matvejevová 1973) a o způsobech reprezentace syntaktické struktury (V. D. Butorov 1974).

Lingvistické problémy ve sbornících LGU jsou většinou zpracovány z hlediska potřeb dialogového systému nebo SP. Nicméně se zdá, že v mnoha směrech si tyto práce zaslouží pozornosti i z hlediska obecně lingvistického, protože nesporně přispívají k prohloubení jazykového popisu. Jde především o práce z oblasti sémantiky, zvláště sémantiky věty a nadvětných celků. Řeší se zde otázky mezivětných sémantických vztahů a redundantnosti v struktuře textu přirozeného jazyka, analyzují se [340]prostředky spojitosti textu, úloha a funkce zájmenných slov, zjištění antecedentu, redukce jazykových prostředků atd. Jde o příspěvky různé co do úrovně zpracovanosti a stupně obtížnosti problémů v nich řešených; jsou však zajímavé z hlediska netradičního přístupu k jazykovým otázkám.


[1] Informacionnyje voprosy semiotiki, lingvistiki i avtomatičeskogo perevoda, VINITI, Moskva 1971; Lingvističeskije problemy funkcional'nogo modelirovanija rečevoj dejatel'nosti, vyp. I, Leningrad 1973, vyp. II 1974.

[2] B. M. Lejkina - T. N. Nikitina - M. I. Otkupščikova - S. J. Fitialov - G. S. Cejtin, Sistema avtomatičeskogo perevoda, rozrabatyvajemaja v gruppe matematičeskoj lingvistiki VC LGU, Naučno-techničeskaja informacija 1, 1966, 40—50.

[3] B. M. Lejkina - G. S. Cejtin, Sintaksičeskaja model' s dopuščenijem ograničennoj neprojektivnosti, Meždunarodnyj seminar po mašinnomu perevodu, tezisy dokladov, Moskva 1975.

[4] Letopočty odkazujeme na sborníky uvedené v pozn. 1.

[5] G. M. Iljin - B. M. Lejkina - T. N. Nikitina - M. I. Otkupščikova - S. J. Fitialov, Lingvističeskij podchod k zadače postrojenija informacionnych sistem, sb. Informacionnyje voprosy semiotiki, lingvistiki i avtomatičeskogo perevoda, VINITI, Moskva 1971, s. 4—13.

[6] Např. T. N. Nikitina - L. A. Starčenko, Nekotoryje voprosy sootnošenija vnešnej i vnutrennej struktury teksta (1971); G. M. Iljin - B. M. Lejkina - M. I. Otkupščikova - S. J. Fitialov - T. N. Nikitina, O dvuch tipach predstavlenija teksta (1974); dále N. N. Iljina (1971), B. M. Lejkina (1971) aj.

[7] Např. Ob ekvivalentnosti grammatik NS i grammatik zavisimostej, sb. Problemy strukturnoj lingvistiki, Moskva 1967.

[8] Srov. zejm. jeho Generativní popis jazyka a česká deklinace, Praha 1967, dále jeho Functional Sentence Perspective in Generative Description, PSML 2, Praha 1967, 203—225 a další práce.

[9] G. S. Cejtin, K voprosu o postrojenii grammatičeskich modelej jazyka (1961); Algoritm dlja uproščënnogo sintaksičeskogo analiza, Problemy kibernetiki 24, 1971, s. 227—243.

[10] G. S. Cejtin, Čerty jestestvennych jazykov v jazykach programmirovanija, Mašinnyj perevod i prikladnaja lingvistika, vyp. 17, Moskva 1974, s. 134—144.

Slovo a slovesnost, volume 37 (1976), number 4, pp. 337-340

Previous Milena Hübschmannová: K jazykové situaci Romů v ČSSR (Sociolingvistický pohled)

Next Jana Weisheitelová: K některým problémům automatické morfologické analýzy a lemmatizace