Časopis Slovo a slovesnost
en cz

Strojový překlad v SSSR

Jarmila Panevová

[Rozhledy]

(pdf)

Машинный перевод в СССР / La traduction automatique en URSS

V SSSR je dnes řada pracovišť a skupin, které se delší nebo kratší dobu věnují přípravě strojového překladu (SP). Od doby, kdy byly v SaS podány zprávy o stavu prací na SP v SSSR,[1] příprava SP značně pokročila. Proto se pokusím shrnout současný stav rozpracovanosti otázek SP, praktické výsledky a užívané pracovní postupy, pokud jsem měla možnost se s nimi seznámit za studijního pobytu v Moskvě a v Leningradě na počátku r. 1966.

V Moskvě se v současné době zabývají SP tato pracoviště:

(I) Laboratoř SP v Prvém moskevském pedagogickém institutu cizích jazyků (vedená V. Ju. Rozencvejgem);

(II) skupina I. A. Meľčuka v Jazykovědném ústavu AN SSSR;

(III) skupina O. S. Kulaginové v Matematickém ústavu AN SSSR;

(IV) sektor matematické lingvistiky VINITI (Vsesojuznyj institut naučnoj i techničeskoj informacii) AN SSSR (vedený Ju. A. Šrejderem);

(V) skupina automatizace překladu a indexování Institutu patentní informace (CNIIPI) — vedená L. G. Kravcem;

v Leningradě pak pracuje na těchto otázkách

(VI) skupina Výpočetního centra LGU (vedená G. S. Cejtinem).[2]

Začátky SP v SSSR jsou spjaty se jménem I. A. Meľčuka a O. S. Kulaginové.[3] Meľčukovy starší práce jsou u nás dostatečně známy. Další etapou, navazující na jeho vnitrosegmentární analýzu,[4] je mezisegmentární syntaktická analýza L. N. Iordanské (II). Jde o vypracování obecné metody syntaktické analýzy užívající tzv. „metody filtrů“, kde se podle stručného seznamu syntagmat konstruují všechny principiálně možné syntaktické vztahy slov ve větě. Po této etapě se pak „metodou filtrů“ na základě vlastností „správných syntaktických struktur“ vybírají ze všech možných pouze analýzy správné.[5] Charakteristickým rysem je rozčlenění procesu přípravy SP na dvě [288]etapy: lingvistický popis (tj. popis „správných syntaktických struktur“) a vlastní sestavení algoritmu na základě těchto údajů.

Jinou metodu nezávislé syntaktické analýzy angličtiny vypracoval Ju. S. Martemjanov (I). Podle této metody má každé slovo v slovníku připsány tzv. „aktivnosti“, na jejichž základě se ustanovují tzv. „potenciální zóny“ valentnosti jednotlivých slov, tj. okruhy slov, které dané slovo může řídit (z hlediska syntaktické závislosti). U každé takové „předpovědi“ se v textu hned hledá, zda je splněna. Za přednost tohoto typu analýzy se pokládá, že jde o čistou syntax, pouze o stanovení závislostí mezi slovy a o zjištění, že jistá „aktivnost“ je vyplněna jistým slovním tvarem. Autor nevychází téměř z žádných předem stanovených lingvistických pojmů; všechno — typy závislostí, které se konstatují, slovní třídy, s nimiž se pracuje, „aktivnosti“ — je stanoveno empiricky na základě pečlivé analýzy textů. Hotova je zatím syntaktická část, na ni bude navazovat sémantická analýza.[6]

Ze sémantického zápisu vět vychází nezávislá sémantická syntéza ruštiny I. A. Meľčuka (II) a A. K. Žolkovského (I).[7] Její zvláštností je, že je to syntéza mnohovariantní, tzn. že za sémantický zápis věty vycházejí jako její překlady všechny možné ruské varianty, které jsou navzájem synonymní. Tato metoda je velmi zajímavá a originální; bohužel není zatím zpracována natolik, aby se dala systematicky popsat. Je ovšem tím zajímavější, že zatímco teoretických koncepcí analýzy pro SP je známo z literatury mnoho,[8] teorii syntézy zatím neznáme. Výchozí sémantický zápis věty není výstupem nějaké konkrétní analýzy, ale ideálním předpokladem pro sémantickou syntézu. Je nazýván ruštinou „nultého stupně“, kterou je třeba postupně „rusifikovat“, totiž v dalších etapách syntézy jí dodat idiomatickou podobu. Dosahuje se toho uvedením systému pravidel a omezení u každého slova v slovníku pro syntézu. Tato omezení mají vlastně úlohu filtrů, protože se opět budují jako výstup všechny principiální možnosti, z nichž některé se potom na základě pravidel o spojování slov eliminují. Získání všech možných variant ruské věty a dostatečné idiomatičnosti překladu se dosahuje zavedením pravidel pro lexikální změny a jimi pak podmíněných pravidel pro změny syntaktické, např. každé slovo lze zaměnit jeho synonymem, někdy jsou s touto změnou spojeny změny syntaktické struktury (např. čto-to unižaet kogo-to je možno změnit na čto-to uniziteľno dlja kogo-to s příslušnými syntaktickými změnami), a dále zavedením určitých obecných pravidel pracujících s prvky sémantického zápisu (sémantických parametrů) — např. parametr „kauzace“ znamená ‚způsobit, aby něco nastalo‘ — vyjádřením tohoto parametru u slova dom je postrojiť, u slova kartina je pisať, u slova veriť je ubediť atd. Za výhodu se pokládá, že se celá idiomatika a frazeologie ruštiny neuvádějí jako jednotlivé výjimky a zvláštní pravidla v algoritmu, ale jako obecná pravidla obsažená u slov už přímo v slovníku v podobě jejich lexikálně sémantická informace. Množství synonymních překladů za jednu větu je při této metodě ovšem značně vysoké. V budoucnu se však počítá se zavedením dalších omezení, např. stylistických aj.

Autoři se zabývají v rámci své syntézy také užitím odkazovacích prostředků a slovosledem.[9] Uvažují o vztahu mezi aktuálním členěním a členěním logickým (v terminologii české lingvistiky snad můžeme přibližně říci: mezi členěním kontextovým a tematickým).[10] V Meľčukově slovosledném algoritmu jde vlastně o konstruování tzv. [289]„obyčejného pořádku slov“ a o jeho obměny s přihlédnutím k vyznačení tématu a rématu (další zkoumání má začlenit faktory další — délku větného členu ap.).

Sémantická analýza zahrnující v sobě analýzu „situací“ (srov. pozn. 6) je příznačná pro práci Rozencvejgovy skupiny (I); příkladem může být dosud nepublikovaná práce N. N. Leonťjevové. Autorka se ve své analýze soustřeďuje zejména na význam předložkových pádů. Práce (materiálově pevně fundovaná) je jednak podrobnou analýzou různých významů ruských předložek, jednak osobitým typem klasifikace doplnění ruského slovesa (popř. substantiva).

Poměrně velmi jasně vyhraněná je koncepce SP leningradské skupiny Cejtinovy (VI).[11] Pracuje se zde na nezávislém SP z angličtiny a z čínštiny do ruštiny. Konkrétní příprava SP se tu spojuje s teoretickými aspekty algebraické lingvistiky (s výzkumem míry složitosti syntaktické struktury v závislostní koncepci, s výzkumem vhodnosti algoritmického popisu pro jednotlivé části gramatiky pro SP). Těmto otázkám se věnují hlavně G. S. Cejtin a S. J. Fitialov. Podle základní koncepce této skupiny lingvista nesestavuje algoritmus analýzy, nýbrž „konkrétní gramatiku“ příslušného jazyka, která je realizací jistého předem zadaného matematického modelu (v daném případě je modelem formalizovaná podoba závislostní gramatiky valentností).[12] Převést tuto formalizovanou podobu výsledků zkoumání v podobu algoritmickou je už úkolem matematika.

Úplný systém překladu není dosud ani v experimentální podobě hotov. Jednotlivé dílčí experimenty se provádějí na počítači. Experimentální algoritmy nezahrnují najednou všechny jevy vyskytující se v textu, ale vypouštějí se některé složitější syntaktické konstrukce. Pokusy na počítači (užívá se M-20) se pokládají za jedinou možnou prověrku existujících algoritmů. Po dosažení „vyhovující“ adekvátnosti, která se určitým způsobem vyčísluje kvantitativně jako poměr (zjednodušeně řečeno) správných (intuitivních) analýz dané věty a analýz přiřazených strojem, gramatika se rozšíří o další konstrukce. Pracuje se zde s převodním jazykem (PJ), ovšem jako s pojmem pracovním, jako s určitým bodem při analýze, kdy se odstraní zvláštnosti vstupního jazyka; podoba PJ není tedy předem jako systém zadána.

V práci této skupiny je třeba podtrhnout jasnost celkové koncepce, cílevědomost jednotlivých výzkumů a realistický pohled na celou problematiku. Skupina nesdílí skeptické názory na realizovatelnost SP, ale také si neklade za cíl vybudovat v nejbližší době ekonomicky efektivní systém překladu.

Pokud jde o skupinu Šrejderovu (IV), její celkové zaměření nám není dosud zcela jasné. Skupina byla založena poměrně nedávno a zdá se, že její celková koncepce se teprve krystalizuje. Konstruují se modely pro popis jednotlivých částí gramatiky;[13] zkoumá se ruština z hlediska analýzy i syntézy (tzv. „pereskaz“ ruského textu); uvažuje se o formálních modelech pro sémantickou analýzu textu.[14] Záslužné jsou pokusy v oblasti automatizace lingvistické analýzy (prováděné na počítači Ural 4).

Práce skupiny (V) je nejvyhraněněji orientována k praktické aplikaci. Skupina dosahuje velmi dobrých experimentálních výsledků; je zaměřena na binární SP patentové literatury z angličtiny do ruštiny, po prvé etapě práce (doslovném překladu, kolem [290]r. 1962) se nyní skupina soustředuje na segmentární SP.[15] Sestavený algoritmus je zaměřen pouze na jevy vyskytující se v patentové literatuře: je omezen nejen slovník, ale i gramatika (např. není třeba počítat se všemi časovými formami angl. slovesa ap.). Existující algoritmus se prověřuje a doplňuje na základě pokusných překladů dalších a dalších patentů ze zvolené tematické skupiny. Nynější slovník je slovníkem slovních tvarů, obsahuje asi 1500 jednotek. V slovníku jsou zahrnuty obraty (je jich zatím asi celá čtvrtina slovníku). Zvláštním blokem při analýze je získávání gramatické informace u slov, která nebyla nalezena v slovníku. Jednou ze zvláštních etap analýzy, specifickou pro texty daného charakteru, je členění na věty. Vzhledem k délce anglických vět, kde jde o popis patentu, je třeba často větu originálu rozdělit na několik vět. V ruském překladu je pak třeba např. z gerundiální vazby slovesné udělat určité sloveso predikátu ap. V procesu analýzy jsou zahrnuty jakési zárodky sémantické analýzy, prováděné zatím pouze u substantiv, která jsou opatřena v slovníku jedním z pěti sémantických indexů (např. nástroj, látka aj.). Na základě těchto indexů jsou vypracovány tabulky o spojitelnosti slov s různými indexy v syntaktické vztahy. Pokud jde o syntézu, je tu jako zvláštní etapa zahrnuta pouze morfologická syntéza ruštiny, neboť záměna anglických syntaktických konstrukcí za odpovídající ruské se provádí průběžně v procesu analýzy. Současně s překladem patentů se od r. 1965 provádí i automatické indexování. Před syntézou se přeložený text srovnává se slovníkem „klíčových“ slov k danému tématu a seznam „klíčových“ slov vyskytujících se v patentech se vytiskne pod překlad jako jeho zhuštěný obsah.

Algoritmus se zkouší na počítači Ural 4. V plánu této skupiny je zkoušet a zlepšovat algoritmus tak, aby se v r. 1969 anglické patenty jedné tematické skupiny překládaly strojově. Skupina má poměrně dobré podmínky personální, na tomto úkolu pracuje 23 lidí (8 lingvistů na algoritmech, 5 lingvistů na slovníku, 8 programátorů a 2 technické síly), značné zlepšení podmínek práce na stroji se očekává v r. 1967, kdy bude mít k dispozici vlastní počítač.

Vedle uvedených skupin zpracovávají problematiku SP i někteří další badatelé (např. Je. V. Padučevová,[16] N. A. Paščenková,[17] spolupracující s jednotlivými z uvedených skupin volněji).

Z našeho přehledu je vidět, že se v SSSR dnes pracuje na přípravě SP velmi intenzívně a mnohostranně. Ani o jednom z uvedených pracovišť však nelze říci, že by už realizovalo výsledky svých výzkumů v podobě průmyslového SP (dokonce to nelze říci ani u tak specializovaného a prakticky zaměřeného pracoviště, jako je (V), kde cílem je rychlá praktická realizace SP). Na všech pracovištích jde o vypracování koncepce, metodiky, popř. o experimentální ověřování dílčích výsledků a o teoretické aspekty nových typů popisu přirozených jazyků. Tím pevnější však je to, zdá se, základna pro budoucí úplné systémy SP a pro jejich účinné praktické uplatnění.


[1] Srov. např. B. Palek, Strojový překlad v SSSR, SaS 20, 1959, 277—285, I. A. Meľčuk, K otázkám strojového překladu v Moskvě, ibid. 285n., Dvě konference o aplikované lingvistice, SaS 23, 1962, 232—236. Průběžně ovšem vycházejí v SaS recenze jednotlivých prací, zde však jde o podání stručného celkového přehledu. Stav do r. 1962 je nejpodrobněji zachycen v bibliografii Strukturnoje i prikladnoje jazykoznanije, Bibliografičeskij ukazateľ, Moskva 1965, srov. nově též I. A. Meľčuk - R. D. Ravič, Avtomatičeskij perevod, Moskva 1967.

[2] Vedle toho pracují na strojovém překladu a příbuzných problémech skupiny v Kijevě (srov. např. sb. Prikladnaja lingvistika i mašinnyj perevod, Kijev 1962, nově vydávaný časopis Kibernetika ap.), v Novosibirsku (srov. např. práce A. V. Gladkého v Problemach kibernetiki 10, 11, 12 aj.), v Jerevanu (srov. např. sb. Matematičeskije voprosy kibernetiki i vyčisliteľnoj techniki, Jerevan 1963), v Tbilisi (srov. sborník Mašinnyj perevod, Tbilisi 1965) a některé jiné. Nezabývám se tu prací skupin věnujících se teoretickým otázkám algebraické lingvistiky (např. S. K. Šaumjana, V. V. Ivanova a I. I. Revzina), přestože jejich práce souvisí velmi úzce s otázkami řešenými v teorii SP. Dále se pokusím uspořádat zpracovávané problémy spíše tematicky s odkazy na příslušné pracoviště.

[3] Významná sovětská matematička O. S. Kulaginová je u nás známa zejména jako autorka množinového analytického modelu (srov. Ob odnom sposobe opredelenija grammatičeskich ponjatij na baze teorii množestv, Problemy kibernetiki 1, Moskva 1958, 203—214), srov. u nás ve výkladu A. a M. Jaurisových Užití teorie množin v jazykovědě, SaS 21, 1960, 34—41, dále též jako spoluautorka francouzsko-ruského algoritmu pro SP (O mašinnom perevode s francuzskogo na russkij, Problemy kibernetiki 3, 1960, 181—208, 1. část, 4, 1960, 207—257). Nověji srov. zejména její práce v posledních svazcích sb. Problemy kibernetiki, věnované otázkám automatizace lingvistické analýzy a automatického sestavování algoritmů pro SP.

[4] I. A. Meľčuk, Avtomatičeskij sintaksičeskij analiz, Novosibirsk 1964; srov. též rec. J. Weisheitelové v SaS 28, 1967, 98—100.

[5] L. N. Iordanskaja, Svojstva praviľnoj sintaksičeskoj struktury i algoritm jeje obnaruženija, Problemy kibernetiki 11, Moskva 1964, 215—244.

[6] Srov. práce v 8. čísle sb. Mašinnyj perevod i prikladnaja lingvistika, Moskva 1963, které jsou charakteristické pro postup skupiny (I).

[7] I. A. Meľčuk - A. K. Žolkovskij, O vozmožnom metode i instrumentach semantičeskogo sinteza, Naučno-techničeskaja informacija 6, 1965, 23—28.

[8] Např. konfigurační analýza T. N. Mološné, prediktivní analýza harvardské skupiny, Garvinova metoda „fulcra“ aj.

[9] I. A. Meľčuk, Porjadok slov pri avtomatičeskom sinteze russkogo teksta, Naučno-techničeskaja informacija 12, 1965, 36—44.

[10] Srov. zvl. F. Daneš, Téma // základ // východisko výpovědi, SaS 25, 1964, 148—149.

[11] B. M. Lejkina - T. N. Nikitina - M. I. Otkupščikova - S. Ja. Fitialov - G. S. Cejtin, Sistema avtomatičeskogo perevoda, razrabatyvajemaja v gruppe matematičeskoj lingvistiki VC LGU, Naučno-techničeskaja informacija 1, 1966, 40—50.

[12] G. S. Cejtin - L. N. Zasorina, O vydelenii konfiguracij v russkom predloženii, Doklady na konferencii po obrabotke informacii, mašinnom perevodu i avtomatičeskom čteniju teksta, vyp. 2, Moskva 1961.

[13] Srov. např. V. B. Borščev - F. Z. Rochlin, Morfologičeskaja modeľ jazyka i morfologičeskij analiz, časť I, Naučno-techničeskaja informacija 11, 1965, 31—36; časť II, tamtéž 12, 1965, 49—54.

[14] Ju. A. Šrejder, Ob odnoj modeli semantičeskoj teorii informacii, Problemy kibernetiki 13, Moskva 1965, 233—240.

[15] Srov. též M. Corbe - R. Tabory, Introduction to an Automatic English Syntax (by Fragmentation), Paper 35, Teddington, Middlsex 1961.

[16] Je. V. Padučeva, Sintez složnych predloženij s odnoznačnoj sintaksičeskoj strukturoj, Naučno-techničeskaja informacija 1964, č. 6, s. 43—49; táž, O svjazjach glubiny po Ingve so strukturoj dereva podčinenij, Naučno-techničeskaja informacija 1966, č. 6, s. 38—43.

[17] N. A. Paščenko, Analiz i sopostavlenije sposobov vyraženija obstojateľstvennych vremennych značenij v russkom i češskom jazykach, Prague Bulletin of Mathematical Linguistics, Praha 1965, č. 3, s. 13—37 a č. 4, s. 26—61; táž, Ob odnom vozmožnom podchode k voprosu avtomatičeskogo sintaksičeskogo analiza predložnych i bespredložnych imennych konstrukcij češskogo jazyka, Kybernetika 2, Praha 1966, 73—85.

Slovo a slovesnost, ročník 28 (1967), číslo 3, s. 287-290

Předchozí Jan Průcha: Nové výsledky sovětské psycholingvistiky

Následující Jiřina Novotná: Leningradské výzkumy percepce řeči a její automatické rozpoznávání