Časopis Slovo a slovesnost
en cz

Současný stav, výsledky a perspektivy strojového překladu

Karel Pala

[Kronika]

(pdf)

Современное состояние, результаты и перспективы машинного перевода / L’état actuel, les résultats et les perspectives de la traduction automatique

Zpráva skupiny strojového překladu na Georgetownské universitě v USA č. 30[1] je pro nás cenná svou souhrnností; informuje nás nejen o stavu a metodice prací na strojovém překládání, ale především o konkrétních výsledcích dosažených v letech 1952—1963. Georgetownská skupina je jednou z nejstarších v USA a provedla první pokus se strojovým překladem na světě v r. 1954 ve spolupráci s firmou IBM.[2] Šlo o překlad krátkého ruského chemického textu do angličtiny na počítači IBM 650.

Zpráva podává přehled o výsledcích dosažených za uplynulých 11 let, ukazuje současný stav problematiky a naznačuje perspektivy dalšího vývoje. Referuje také o všech konferencích a symposiích o strojovém překladu, které se konaly od r. 1952 do června 1963 v USA a v Evropě (kromě SSSR) a kterých se zúčastnili pracovníci georgetownské skupiny.

Historie skupiny. Georgetownská skupina vznikla v r. 1952 a jejím vedoucím se stal L. E. Dostert. Po zmíněném pokusu zájem o SP v USA opadl, ale vzrostl opět v r. 1956, když AV SSSR oznámila, že byl proveden úspěšný pokus s překladem vědeckého textu z angličtiny do ruštiny na počítači BESM. Protože chyběly zkušenosti, bylo zřízeno několik skupin, které se zabývaly sestavováním strojového slovníku, morfologickou a syntaktickou analýzou. Na některých problémech pracovaly dvě skupiny současně, metodiky překladu jimi navržené se pak experimentálně ověřovaly na počítači a vybírala se ta, která dávala nejlepší výsledky. Takto byly sestaveny některé programy pro počítač, např. SERNA SYSTEM (s russkogo na anglijskij) určený pro počítač IBM 705, který byl později adaptován pro počítač IBM 7090 s novým názvem GAT SYSTEM (Georgetown Automatic Translation) a program pro překlad z francouzštiny do angličtiny nazvaný SLC (Simulated Linguistic Computer) a později (v r. 1962) přepracovaný na obecný programovací jazyk, kterého lze podle potřeby použít k programování překladových programů pro různé dvojice jazyků. Od r. 1958 provádí skupina téměř pravidelně pokusy s překládáním textů, např. v r. 1960 překlad chemických ruských textů pro Pentagon, koncem r. 1961 podobná ukázka pro organizaci Euratom.

Metody. Georgetownská skupina pracuje dnes již „klasickou“ metodou binárních algoritmů, tj. překladový algoritmus se sestavuje jen pro jednu dvojici jazyků a překládat lze jen jedním směrem. Provádí se solidní lingvistická analýza jazyků, která je však zaměřena spíše prakticky, obecné lingvistické závěry se dělají jen v menší míře. Usiluje se o nejlepší kvalitu překladů a o co nejrychlejší uvedení výsledků do praxe. Rusko-anglický program, který je v této skupině také nejlépe propracován, se skládá z těchto částí (podprogramů):

1. transkripce, tj. přiřazení latinských znaků a arabských číslic, kterými disponuje klávesnice počítačů IBM, znakům azbuky;

2. podprogram pro vyhledávání překladových ekvivalentů a strojový slovník. Slovník je rozdělen na dvě části: na slovník kmenů (substantiva, adjektiva, většina sloves) a na tzv. „nedělený“ slovník, v němž jsou uložena všechna neohebná slova, a tam, kde je to výhodné, všechny tvary slov ohebných, např. nepravidelných sloves nebo substantiv se změnami kmenové souhlásky. Ke slovníku kmenů patří ještě tabulka koncovek;

3. podprogram pro morfologickou analýzu, která se dělí na analýzu sloves a analýzu substantiv a adjektiv. V morfologické analýze substantiv a adjektiv se [209]velmi výhodně používá principu komplementární distribuce koncovek, který umožňuje řešit v ruštině častou homonymii koncovek;

4. podprogram pro zjišťování hranic mezi větami a souvětími, tzv. „větný separátor“, který segmentuje každou vstupní větu do tzv. „strojových vět“, což jsou vlastně jednoduché věty obsahující základní syntaktickou strukturu, tj. podmět a přísudek;

5. podprogram pro analýzu frazeologismů, která v podstatě spočívá v tom, že se slova tvořící frazeologický obrat jako celek vyhledávají v slovníku frazeologismů;

6. podprogram pro převádění zkratek, vzorců, číslic a číslovek aj. ze vstupního jazyka do výstupního;

7. interpolační podprogram pro analýzu číslovek a číselných znaků, které by se zdánlivě měly zpracovávat 6. podprogramem, ale ve skutečnosti vyžadují úplnou analýzu;

8. podprogram pro syntagmatickou analýzu, která zpracovává spojení dvou a více slov a zjišťuje jejich syntaktické vztahy, tj. řídící a závislé slovo; syntagmatická analýza obsahuje rovněž zpracování vložených slovních spojení (nestings);

9. podprogram pro syntaktickou analýzu, v níž se zjišťují a identifikují základní větné členy, tj. podmět a přísudek, v každé strojové větě;

10. podprogram pro sémantickou analýzu, tj. výběr synonymních lexikálních jednotek v případě, kdy jedno ruské slovo může být přeloženo několika způsoby. Výběr správné lexikální jednotky se provádí na základě analýzy okolí (kontextu) zpracovávaného slova;

11. podprogram pro syntézu, který spočívá v tom, že se podle údajů získaných v analýze přiřazují anglickým ekvivalentům příslušné koncovky, tj. tzv. vlastní syntéza, zahrnující syntézu sloves a substantiv, adjektiv;

12. podprogram pro doplňování slov, která nejsou v ruském textu obsažena, např. členy, řada předložek a náležité tvary pomocných sloves;

13. podprogram pro úpravu pořadí slov, tj. slova se stavějí do takového pořadí, jaké vyžaduje výstupní jazyk, např. změna pořadí u participií nebo u vět, které ve vstupním jazyce mají pořadí základních členů obrácené (přísudek — podmět). Po uplatnění všech těchto podprogramů (podle potřeby) je text ve výstupním jazyce tištěn tiskárnou nebo připojeným elektrickým psacím strojem.

Výsledky a perspektivy. Na výzkum a přípravu programů dostala georgetownská skupina přes 1 3/4 miliónu dolarů. Nyní se mohou překládat ruské texty z organické chemie, kybernetiky, ekonomie aj. Strojové slovníky při vlastních překladech textů z jednotlivých oborů obsahují asi 1000—9000 slovníkových hesel. U syntaktické analýzy rusko-anglického programu je příznačné, že je založena na závislostní koncepci, jak to zřejmě vyžaduje vstupní jazyk. Přeložený text se hodnotí jako stylisticky těžkopádný, obsahuje chyby, ale podle názoru odborníků plní základní funkci překladu, tj. přenáší význam originálu. Programy se neustále upravují a kvalita strojem přeložených textů se zlepšuje. Je zřejmé, že redakce po překladu bude potřebná zhruba ve stejném rozsahu jako u překladů, které dělají překladatelé — lidé. Zájem organizací Euratom, Pentagonu, NATO, komise pro atomovou energii svědčí o tom, že se strojově překládané texty budou užívat v širším měřítku. Důležité je, že překlady na strojích splňují hlavní požadavek, který je na ně kladen; umožňují rychlé zpracování vědeckotechnických informací přicházejících v cizích jazycích. Praktické výsledky georgetownské skupiny spíše vyvracejí skeptické názory na budoucnost strojového překladu,[3] které se v poslední době objevily, a ukazují, že dosažení patřičné kvality ve strojovém překladu je pouze otázkou času a vhodné techniky.

Georgetownská skupina pracuje kromě toho na binárních překladových progra[210]mech pro překlady francouzsko-anglické, turecko-anglické, čínsko-anglické, arabsko-anglické. Dále se zabývá strojovou srovnávací analýzou slovanských jazyků z hlediska SP; porovnávají se čtyři slovanské jazyky: ruština, čeština, polština, srbocharvátština. Pro ně je vypracována transkripce do angličtiny, která používá asi 84 znaků, z velké části spřežek. Zjišťují se i četnosti výskytu některých tvarů a sestavují se tabulky koncovek pro skloňování. Jedním z cílů srovnávací analýzy slovanských jazyků je prozkoumat možnosti pro pozdější sestavení převodního jazyka (core language).


[1] Occasional Papers on Machine Translation, No 30, General Report 1952—1963, prepared by R. R. Macdonald, Georgetown University Machine Translation Research Project, Washington, D. C., June 1963.

[2] L. E. Dostert, Georgetown-IBM experiment in January 1954, sb. Machine Translation of Languages, New York 1955.

[3] Y. Bar-Hillel, srov. SaS 24, 1963, 160.

Slovo a slovesnost, ročník 26 (1965), číslo 2, s. 208-210

Předchozí Ludmila Uhlířová: Úvod do automatického zpracování jazykových údajů

Následující Vladimír Hořejší: Nový francouzský výslovnostní slovník