Časopis Slovo a slovesnost
en cz

Americký sborník o některých problémech strojového překladu

Eva Hajičová

[Kronika]

(pdf)

Американский сборник, посвященный некоторым вопросам машинного перевода / Recueil américain relatif à certains problèmes de la traduction automatique

V přístupu lingvistů k problematice strojového překladu se zřetelně uplatňují dva směry: jeden, který se snaží uvést získané teoretické poznatky co nejdříve do praxe, a proto si klade skromné cíle v otázkách kvality přeloženého textu, a druhý, snažící se o co nejdokonalejší překlad i za cenu toho, že nebude ihned za současného stavu lingvistického i technického výzkumu uskutečnitelný. Urychlenému praktickému uplatnění teoretických poznatků se nyní věnuje zvýšená pozornost v SSSR, zároveň se však dnes staví do popředí otázka hranice kvality textu přeloženého strojem, na niž nebyla dosud nalezena jasná odpověď. K prvnímu směru se řadí skupina, která pracuje na universitě v Seattlu (Washington) v USA pod vedením E. Reiflera. Svědčí o tom dvoudílný sborník[1] vydaný oddělením slovanských jazyků a literatury a jazyků Dálného východu a elektrotechnickým oddělením washingtonské university. Sborník obsahuje zprávy o práci v oboru strojového překladu, konané od května 1956 do října 1959, všechny materiály (texty, překlady, tabulky, schémata), některé teoretické studie lingvistické i technické a podrobnou bibliografii prací z tohoto oboru, a to nejen amerických, ale i zahraničních. I když je v lecčems v teorii i v praxi předstižen, je stále poučný tím, že se opírá o značně rozsáhlou konkrétní práci.

Přípravou strojového překladu se začalo oddělení slovanských jazyků zabývat v listopadu 1949 po uveřejnění memoranda W. Weavera z července téhož roku, v němž ukazuje možnost automatického překladu pomocí počítačů. Od r. 1952 pracují společně s oddělením elektrotechnického inženýrství a prvním výsledkem jejich práce byl r. 1954 zkušební model strojového překladu z němčiny do angličtiny a postupné zpracování terminologie strojového překladu. Od června 1956 pracují obě skupiny na přípravě rusko-anglického slovníku pro fotoskopickou paměť. Toto zařízení vyvíjela tehdy společnost ITC v Los Angeles pro vojenské letectvo.

Skupina pracovala od počátku velmi systematicky. Překladatelé nejprve přeložili do angličtiny podle jednotných pokynů 111 vybraných ruských textů ze 40 vědních oborů. Podmínkou bylo, že musí překládat slovo za slovem, aby tím více vynikly problémy, které nastanou při překladu strojem: odlišné zásady pořádku slov anglické a ruské věty, problém gramatické a lexikální homonymie, obtíže transliterace ruské azbuky, zvláště u vlastních jmen. Zmíněné texty byly excerpovány a byla zjišťována frekvence jednotlivých tvarů. Tak byl získán základ slovníku, a ten doplněn nejfrekventovanějšími slovy z frekvenčního slovníku ruštiny[2] a později i paradigmatickými tvary [285]jednotlivých lexikálních jednotek. Lexikálním jednotkám pak byly přiřazeny tzv. distribuční třídy (k jedné distribuční třídě patří jednotky, které mají stejný gramatický význam).

Východiskem dalšího výzkumu byl anglický překlad původně vybraných 111 textů, který vznikl nahrazením ruských jednotek v daném textu ekvivalenty anglickými (tzn., že pro každé ruské slovo bylo v tomto překladu několik ekvivalentů). Takový „překlad“ byl téměř nesrozumitelný, neboť čtenář se v něm nemohl orientovat, aby si vybral právě ten ekvivalent, který do věty patřil. Kromě toho pořádek slov musel odpovídat pořádku slov ruské věty. Ukazoval však velmi názorně, co je nutno zlepšit, aby se mohlo překladu prakticky využít — a v této fázi výzkumu již pomáhaly počítače (IBM 650).

Skupina se soustředila na tyto hlavní problémy: 1. odstranění homonymie lexikální i gramatické, 2. úprava pořádku slov, 3. změny ve struktuře věty v průběhu jejího překladu.

Homonymie lexikální byla řešena zatím jen u odborných termínů. Jednotlivým termínům byly přiděleny indexy podle vědního oboru (bylo určeno celkem 9 hlavních oborů a každý z nich byl dále členěn). Stroj sám podle frekvence výskytu jednotlivých indexů určí obor, k němuž daný text patří, a při druhém průchodu materiálu strojem ponechává tu alternativu, která má tento nejfrekventovanější index. Předpokládá se, že se tímto způsobem vyřeší asi 50 % homonymie odborných slov.

Určité procento lexikální homonymie se řeší logickými operacemi, jejichž hlavním úkolem je odstranit homonymii gramatickou, neboť v mnohých případech je význam lexikální a gramatický těsně spjat. Logický program, který v Seattlu již vyzkoušeli, má čtyři části: 1. Vyhledání nominálních bloků ve větě (předložka — adjektivum — substantivum) a jejich zjednodušení (v doslovném překladu je např. předložka u každé části bloku, tedy před adjektivem i před substantivem). — 2. Přiřazování gramatické informace substantivům a úprava předložek podle kontextu. — 3. Přiřazování gramatické informace slovesům. V těchto dvou operacích se uvažuje i okolí zkoumané jednotky. — 4. Doplnění chybějících předložek podle ruských koncovek a individuální program pro některá slova (např. některé předložky).

Tyto čtyři postupy řeší některé otázky gramatické a lexikální homonymie, ale neřeší otázky pořádku slov. Pořádek slov se však považuje za druhořadý; věty přeložené slovo za slovem (jedinou správnou alternativou) nevyhovují sice obvyklému slovnímu pořádku slov anglické věty, ale jsou srozumitelné. Stejně tak program změny struktury věty v průběhu strojového překladu je jen naznačen v jednom příspěvku a nebyl dosud prakticky vyzkoušen (stroj by vyhledal tzv. slovní bloky, a tato slova by uspořádal podle závislostí bez ohledu na to, v jakém pořadí byla ve větě vstupního jazyka). V jedné z uveřejněných prací je zmínka i o tom, že se v současné době (tj. od r. 1959) zkoumají na rozboru ruských slovesných tvarů možnosti, které poskytuje strojovému překladu transformační gramatika.

Z uvedeného přehledu je vidět, že postup skupiny v Seattlu se podstatně liší od práce podobných skupin v USA i jinde. Kladou větší důraz na slovník než na strukturní rozbor, neomezují slovník jen na jedno odvětví vědy, ale snaží se postihnout odbornou terminologii vůbec a nepracují se slovníkem kmenů a slovníkem koncovek. Odborné termíny přinášejí mnohem méně problémů než slova ostatní, a proto nevadí, jestliže se pracuje se slovníkem více vědních oborů. Technické zařízení, které měla skupina k dispozici, má prakticky neomezený rozsah paměti, a proto nebylo nutno šetřit místem v slovníku. Každý slovní tvar se ukládá zvlášť do slovníku, proto morfologický rozbor jako zvláštní složka je zbytečný.

I když si autoři příspěvků v tomto sborníku nekladou obtížné teoretické úkoly, jejich metoda a hlavně systém jejich práce je poučný. Mají neustále na zřeteli praxi. Za dnešního rozvoje vědy a techniky nemohou lidé stačit překládat ani nejnutnější odbornou literaturu, a proto úkolem strojového překladu je poskytnout vědcům spolehlivé překlady vědeckých publikací takovou rychlostí a za takovou cenu, jakých není možné tradičním způsobem překladu dosáhnout. Dosažené výsledky jsou jim však jen materiálem, jehož nepřesnosti studují a postupně odstraňují.[3]


[1] Linguistic and Engineering Studies in the Automatic Translation of Scientific Russian into English, Technical Report 1, 1958; 2, 1960, Univ. of Washington Press, Seattle.

[2] Harry H. Josselson, The Russian Word Count, Wayne University Press, 1953.

[3] Podobného postupu používá nyní skupina v Seattlu i při přípravě strojového překladu z čínštiny, jak o tom svědčí zpráva The Chinese-English Machine Translation Project, Seattle, Washington, září 1962. Je připraven odborný slovník čínsko-anglický (zatím obsahuje 13 400 jednotek) a přeloženy 2 odborné texty metodou doslovného překladu.

Slovo a slovesnost, ročník 24 (1963), číslo 4, s. 284-285

Předchozí Ján Horecký: Hornický slovník terminologický

Následující Slavomír Utěšený: Přípravy dotazníku pro slovanský jazykový atlas