Časopis Slovo a slovesnost
en cz

Sovětská práce o strojovém překladu

Eva Buráňová

[Discussion]

(pdf)

Советская книга о машинном переводе / A Soviet contribution to the machine translation

Ti, kdo se zajímali v rozmezí posledních desetiletí o vznik a vývoj strojového překladu (dále SP), byli svědky mnoha zvratů v posuzování jeho perspektiv a možností, od názorů nejoptimističtějších až po zcela skeptické. K správné orientaci v této oblasti, objektivnímu pohledu a informovanosti o nejvýznamnějších směrech a pracovních týmech SP ve světě přispěla významně kniha O. S. Kulaginové Issledovanija po mašinnomu perevodu (Moskva 1979, 320 s.).

Kniha má dvě hlavní části. V první z nich je shrnuta obecná problematika SP a jeho historie, druhá je věnována podrobně experimentálnímu systému francouzsko-ruského překladu (FR-II), na němž pracuje autorka s pracovním kolektivem v Ústavu aplikované matematiky AV SSSR.

V širokém smyslu je SP teoretický systém na pomezí matematiky, kybernetiky a lingvistiky; jeho cílem je realizace SP v užším smyslu (tj. ve smyslu reálné aplikace), jímž se autorka ve své práci zabývá. Navíc jde o překlad plně prováděný počítačem, připouští se nanejvýše určitá postredakce. Je ovšem utopická představa, že libovolný text může být automaticky překládán naprosto správně; předpokládá se text tematicky omezený na určitou vědeckotechnickou oblast.

Sestavení vhodné gramatiky pro SP je v podstatě hledání rozumného kompromisu mezi složitostí pravidel a podílem správně analyzovaných vět. Cílem je zvětšit počet prvků třídy správných vět, zmenšit počet vět nesprávných a omezit pokud možno počet vět takových, kde mezi několika výsledky je i výsledek správný, a omezit též maximální počet těchto alternativních výsledků. Zatím však není zcela jasné, jak má být přesně gramatika vymezena, ani není znám její vliv na zmíněné třídy vět. V systému FR se dávala pokud možno přednost méně přísným formulacím gramatických pravidel. Takový systém má větší stabilitu a směřuje od pravidel typu „dovoleno—zakázáno“ k pravidlům preference na základě vah nebo jiných kritérií. Hlavní obtíž při vytváření gramatiky spočívá v tom, že po dosažení úrovně, kdy systém dává asi 60 % správných vět, je každé další procento vykoupeno podstatným zvýšením počtu pravidel. Bylo by velmi výhodné sestavit pro základní, pravidelné [63]konstrukce, jichž je v jazyce většina, jednoduchou a rychle fungující část gramatiky a pouze v případě méně obvyklých konstrukcí přejít k složitým pravidlům. Prakticky však takový systém posud nebyl vypracován.

V dalších kapitolách autorka charakterizuje systémy SP tří generací. Systémy 1. generace, rozvíjené přibližně do konce 50. let, jsou charakterizovány binárností (analýza vstupního jazyka a syntéza výstupního jazyka jsou vzájemně závislé), jednoúrovňovostí (nerozlišuje se morfologická a syntaktická rovina), jednovariantností (vždy jen s jednou variantou výstupu) a nerozčleněností (gramatika není oddělena od algoritmu). Příkladem systému 1. generace je systém FR-I vytvářený v Ústavu aplikované matematiky AV SSSR v letech 1954—1960. — Naproti tomu v systémech 2. generace je obvyklý model: morfologická analýza, syntaktická analýza, transformační (převodní) rovina, syntaktická syntéza, morfologická syntéza. Místo binárnosti je charakteristická nezávislost analýzy a syntézy obou jazyků, gramatika a algoritmus bývají vzájemně odděleny. Dochází běžně k mnohovariantnosti výstupů. Příkladem tohoto typu je FR-II popisovaný v druhé části knihy. — Nejnovější vývoj spěje k systémům 3. generace, kde se projevuje snaha o začlenění hloubkové syntaxe (např. Apresjan) a sémantické roviny (Wilks). Zapojení sémantické roviny přináší potřebu překročit hranice věty směrem k vyšším jednotkám (odstavcům, textům ap.) a na druhé straně směřování k nižším významovým elementům (sématům), tj. přechod od vztahu „slovo—věta“ ke vztahu „séma—text“. Směřuje se k vícevariantnosti syntézy a k preferenčním algoritmům.

Další kapitoly knihy věnuje autorka otázkám formalismu a matematických aspektů SP. Zatímco systémy 1. generace byly na úrovni kódů, pro 2. generaci je typický vznik formálních aparátů pro syntaktické struktury. Popis gramatik byl nejčastěji založen na podobě složkových či závislostních stromů nebo na gramatikách transformačních, dále jsou podnikány pokusy o odstranění jejich nedostatků. Přechod k rovině sémantické reprezentace přináší další návrhy formalismů (sémantické sítě aj.). Nové možnosti pro perspektivu SP znamená rozvoj dialogových systémů (SP jako systém modelů různé složitosti, kdy součinnost člověka s počítačem by umožnila volbu analýzy s vhodným stupněm obtížnosti v konkrétních krocích překladu).

Autorka popisuje několik konkrétních formalismů, jichž bylo použito pro různé pokusy SP. Např. 1. varianta překladu z ruštiny do francouzštiny skupiny SP na univerzitě v Grenoblu (FR-I) je založena na frázové gramatice (Vauquois, 1975); využívá se tu stromů jak složkových, tak závislostních. Na rozdíl od běžných typů frázových gramatik měl zde zápis symbolů složitou strukturu, užívalo se pravidel obsahujících podmínky a pravidel pro zpracování nespojitých složek. Jiným výchozím formalismem je Woodsova „rozšířená síť přechodů“ (Woods, 1970) nebo Colmerauerovy Q-systémy (Colmerauer, 1971).

V následující části knihy je charakterizováno několik experimentů SP v souvislosti s výše popsanými vlastnostmi systémů jednotlivých generací. Typickým představitelem 1. generace je již zmíněný systém francouzsko-ruského překladu matematictických textů FR-I. V souhlase s rysy 1. generace představoval zde proces překladu jednu nerozčleněnou rovinu přetváření „rusifikované“ morfologické reprezentace francouzské věty na morfologii ruské věty. Systém měl malou stabilitu, převodní pravidla byla individuální a lokální. Neoddělenost gramatiky a algoritmu způsobily, že obojí bylo zformulováno bez dostatečné obecnosti. Výsledky tohoto experimentálního systému nebyly špatné, ale bylo na ně vynaloženo příliš mnoho práce.

V SSSR bylo vytvořeno i několik dalších experimentů systémů 1. generace (Belskaja, 1969; Jakimenko - Paničevskaja, 1966). — Přechod k 2. generaci pak představuje další skupina experimentů SP, např. anglicko-ruský překlad matematických textů založený na gramatice konfigurací T. M. Mološné (Mološnaja, 1960; Bagrinovskaja, 1970), arménsko-ruský překlad pod vedením V. M. Grigorjana (Grigorjan [64]aj., 1965), anglicko-ruský překlad patentové dokumentace (Kravec aj., 1967) nebo rusko-gruzínský překlad pod vedením G. B. Čikoidze (Barbakadze, 1974). Překladem publikací vědeckotechnického charakteru patřícím zjevně již k 2. generaci se zabývala skupina G. S. Cejtina na leningradské univerzitě. Pracovalo se zde s převodním jazykem. Výsledky experimentu měly vysokou kvalitu, překlad však byl pomalý a byl vyzkoušen jen na materiálu malého rozsahu.

Po stručné charakteristice některých prakticky fungujících SP mimo území SSSR se autorka zastavuje podrobněji u rusko-francouzského překladu skupiny GETA v Grenoblu RF-II (Vauquois, 1975), na němž se začalo pracovat v r. 1971 a v r. 1977 byly provedeny první experimenty. Systém se skládá ze čtyř podsystémů. První podsystém pracuje se slovníkem kmenů a koncovek, slovníkem slovních obratů, provádí morfologickou analýzu a částečně řeší homonymii; jako morfologická reprezentace zde nevystupují řetězy, nýbrž stromy. Druhý podsystém mění tyto stromy ve stromy syntaktických vztahů, třetí zaměňuje ruské lexikální jednotky francouzskými a čtvrtý vytváří francouzskou větu. Rovina, na níž se provádí transformace z jazyka do jazyka, zavisí na blízkosti jazyků.

Jako příklad systému začleňujícího do popisu SP složku sémantické reprezentace (přechod k 3. generaci) je uváděna a krátce popsána preferenční sémantika Y. Wilkse (1972), uplatněná v experimentu překladu z angličtiny do francouzštiny na cambridžské univerzitě.

Systém francouzsko-ruského SP FR-II je experimentální systém 2. generace, zpracovávaný v Ústavu aplikované matematiky AV SSSR v letech 1967—1976 na základě zkušeností s první variantou FR-I, popsanou výše. Pracuje na něm autorka s kolektivem (Kulagina, 1973). Experimenty byly prováděny na počítači BESM-4. Překlad je orientován na matematické texty, což se projevuje zejména na skladbě slovníku; co se týče gramatiky, počítá se s tím, že bude v podstatě použitelná pro tematicky různorodé texty vědeckotechnického charakteru. Převod z jednoho jazyka do druhého se děje na úrovni povrchové syntaxe. Jde o plně automatizovaný překlad, před vstupem do počítače byly prováděny pouze některé úpravy textu, např. příliš dlouhé věty byly rozděleny na části (ne delší než 45 slov) apod.

Při překladu se používá tří slovníků. Je to slovník francouzských slov, francouzských slovních obratů a ruských slov. Každé francouzské slovníkové heslo má záhlaví a soubor příznaků (tzv. slovníkovou informaci). V případě homonymie odpovídají jednomu záhlaví dvě až šest slovníkových informací. Kniha přináší názorný a detailní popis struktury slovníku, uspořádání tabulek, organizace slovníku v paměti stroje i hledání v něm.

Účelem morfologické analýzy je získat informace o formách francouzských slov, tj. morfologické charakteristiky. Slova, která zůstala nepřeložena (pokud nejsou určena jako vlastní jména), dostávají podle tabulky tvarů také určitou charakteristiku, chybí jim však překladové číslo. Odstraňuje se homonymie mezi třídami na základě lineárního kontextu (srov. např. pravidlo, že po předložce nebo po předložce a členu nemůže bezprostředně stát určitý slovesný tvar).

Syntaktická analýza má několik částí. Nejprve se pomocí analyzátoru (tj. tabulek vztahů) vytváří výchozí soubor potenciálních vztahů čili hypotéz. V úvahu se zatím berou jen příznaky dvou spojovaných textových jednotek, bez ohledu na ostatní jednotky věty. Vzniká tzv. pseudograf. V další etapě se „pročišťuje“ soubor potenciálních vztahů pomocí obecných nebo dílčích pravidel (filtrů), jimiž se rozhoduje, zda jde o správný vztah. Přitom se bere v úvahu jak lineární kontext, tak daný soubor vztahů. Používání filtrů se opakuje cyklicky a je usměrňováno podle toho, co překládaná struktura vyžaduje (tj. podle dané struktury se řídí, které části algoritmu se použijí a kolikrát se budou opakovat). Nejprve se analyzují obecné a časté vztahy a uplatňují se nepodmíněně fungující, hrubé a jednoduché filtry. [65]Výsledkem filtrování je vytvoření jedinečných souborů vztahů pomocí matice slučitelnosti hypotéz. Nakonec se na těchto souborech vytvářejí závislostní stromy.

Následující fází systému je transformace francouzských závislostních stromů na stromy, které jsou východiskem pro syntézu ruské věty, a výměna lexika. V knize je uveden přehled transformačních pravidel. Jsou dány též zásady jejich slučitelnosti.

Konečná podoba ruské věty je výsledkem syntaktické a morfologické syntézy. Postupně se stanoví údaje o formě ruských slov, o slovosledu věty a z kmenů a údajů o formě se vytvářejí ruské slovoformy. V ruské větě je v podstatě zachováván pořádek slov, jaký byl ve větě francouzské. K některým změnám dochází v transformacích nebo použitím pravidel pro umístění přívlastků.

Systém FR-II byl vypracován postupně ve dvou modifikacích. Po určitý čas existovaly paralelně a v rámci obou modifikací byly prováděny pokusy s týmiž větami. V poslední době bylo ukončeno vnášení oprav a všechny texty byly přeloženy znovu konečnou verzí systému. Korpus textů obsahuje 1408 vět, které se skládají z více než 30 000 slov. 24 textů bylo vybráno z oblasti matematiky, jeden pro srovnání z oblasti jiné. Byla též vyhodnocena kvalita překladu; je zřejmé, že kvalitu nelze hodnotit např. podle rychlosti fungování systému, neboť i značně primitivní systém může být rychlý. Jako nejlepší přístup byl zvolen způsob expertního hodnocení podle vytvořené stupnice. V roli expertů se zúčastnilo asi 80 osob v pěti skupinách (byli v nich zejména matematici, inženýři, lingvisté pracující na SP apod.). Byla testována srozumitelnost, gramatická správnost a adekvátnost překladu, a to třemi stupni (dobře, středně, špatně). V případě, že bylo výsledkem překladu několik variant, hodnotila se pouze nejlepší z nich. Průměrné ocenění známkou „dobře“ tvořilo co do srozumitelnosti překladu 63 %, co do gramatické správnosti 53 % a v adekvátnosti 66 %.

Charakter systému FR-II je experimentální. Pro praktické použití by bylo nutné zvětšit slovník a rozšířit soubor transformací, v malé míře i pravidel v ostatních částech gramatiky. Co se týče problému programování, nevěnovala se zatím pozornost ani rychlosti překladu, ani vhodnosti vstupu, ani některým dalším technickým otázkám. Kniha O. S. Kulaginové nás však dostatečně přesvědčuje o důležitosti a velmi dobrých výsledcích tohoto experimentálního systému, které ukazují na nadějné perspektivy v oblasti strojového překladu vědeckotechnických textů.

 

LITERATURA

 

BAGRINOVSKAJA, G. P.: Mašinnyj perevod s anglijskogo jazyka na russkij. Problemy kibernetiky, 22, 1970, s. 203—280.

BARBAKADZE, M. M.: Nekotoryje programmy interpretirujuščej sistemy dlja algoritma russko-gruzinskogo mašinnogo perevoda. In: Mašinnyj perevod, Tbilisi 1974, s. 135—140.

BEĽSKAJA, I. K.: Jazyk čeloveka i mašina. Moskva 1969.

COLMERAUER, A.: Les systèmes Q ou un formalisme pour analyser et synthétiser des phrases sur ordinateur. In: TAUM 71. Univ. Montréal 1971, s. 1—45.

GRIGORJAN, V. M. - GJULMISARJAN, S. A. - DŽANPOLADJAN, T. K.: Ob algoritme armjano-russkogo mašinnogo perevoda. Problemy kibernetiky, 14, 1965, s. 267—287.

JAKIMENKO, S. N. - PANIČEVSKAJA, T. A.: Ob odnom podchode k voprosu avtomatizacii perevoda. In: Avtomatizacija informacionnych rabot i voprosy matematičeskoj lingvistiky. Kijev 1966, s. 5—17.

KRAVEC, I. G. - VASILEVSKIJ, A. I. - DUBICKAJA, A. M.: Eksperimentaľnaja sistema avtomatičeskogo perevoda publikacij iz amerikanskogo patentnogo ježenedeľnika „Official Gazette“. NTI, Ser. 2, č. 1, 1967, s. 35—40.

[66]KULAGINA, O. S.: O sisteme francuzsko-russkogo mašinnogo perevoda FR-II. Problemy kibernetiky, 27, 1973, s. 33—45.

MOLOŠNAJA, T. N.: Algoritm mašinnogo perevoda s anglijskogo jazyka na russkij. Problemy kibernetiky, 3, 1960, s. 209—272.

VAUQUOIS. B.: La traduction automatique à Grenoble. Documents de linguistique quantitative, 24, Paris, 1975.

WILKS, Y.: Grammar, meaning and the machine analysis of language. London 1972.

WOODS, Y.: Transition network grammars for natural language analysis. CACM, Vol. 13, č. 10, 1970, s. 591-606.

Slovo a slovesnost, volume 43 (1982), number 1, pp. 62-66

Previous Jan Králík: Nové sovětské příspěvky z kvantitativní lingvistiky

Next Olga Müllerová: Sborník o pragmalingvistice