Časopis Slovo a slovesnost
en cz

Lingvistické dějiny strojového překladu

A. Lebeděvová, Ludmila Uhlířová

[Chronicles]

(pdf)

Лингвистическая история машинного перевода / L’histoire linguistique de la traduction automatique

Následující poznámky jsou věnovány knize velmi záslužné a potřebné.[1] Je to první a dosud jediná monografie věnovaná historii strojového překladu (dále jen SP). Kromě ní lze nabýt celkový obraz o SP buď jen z bibliografií, a to Delavenayových,[2] anebo z pozdější a u nás snadno dostupné sovětské Ravičovy,[3] která z Delavenayových čerpá a v níž jsou tituly opatřeny stručnými anotacemi, popř. z bibliografií časopiseckých (např. v čas. Mechanical Translation nebo La traduction automatique) nebo z přehledných článků otištěných v různých sbornících, které si obvykle všímají stránky lingvistické i technické. Pokud existují knižně vydané monografie, pak většinou shrnují práci a názory některé jednotlivé skupiny pracující na SP. Práce Mouninova je tedy novinkou v tom, že přináší ucelený přehled o výzkumech v SP v celé šíři, v různých státech a výzkumných skupinách, od samých počátků až po výsledky dosažené do konce r. 1961. Jádrem přehledu je podrobný rozbor problematiky a její lingvistické (nikoli technické) hodnocení.

Kniha má kromě úvodu dvě části: postuláty a problémy.

V úvodu (o dvou kapitolách) se definuje SP a uvádějí termíny, jimiž se v různých jazycích označuje (mechanical translation, computer translation, traduction automatique, machine à traduire, mašinnyj perevod atd.). Dále se čtenář seznamuje s hlavními výzkumy a pracemi na SP podle jednotlivých etap.

Je známo, že kořeny SP sahají až do r. 1933, kdy sovětský vědec P. P. Trojanskij podal přihlášku na vynález překládacího stroje. Stroj, podobný automatické telefonní ústředně a pojmenonovaný Mark I, byl však sestaven Trojanským až v r. 1941, a to na Harvardské universitě v USA. Oficiální zrod myšlenky SP — s využitím elektronických samočinných počítačů — je však zaznamenán až v r. 1946, a to v oblasti mimolingvistické: teoretickými a technickými zakladateli jsou A. D. Booth (tehdy ředitel laboratoře elektronických počítačů) a W. Weaver. Booth připravil první program pro překlad slovo za slovem již v r. 1947; Weaver proslul o dva roky později svým memorandem, v němž propagoval překlad pomocí počítače jako možný a vyzýval k jeho realizaci. V témže roce a v letech dalších začínají pracovat první lingvistické skupiny (v Seattlu 1949, v MIT 1950, v r. 1952 v SSSR). R. 1957 konstatuje existenci již 17 skupin: v USA osm, ve Velké Británii tři, v SSSR čtyři, v Itálii a ČSSR po jedné (ve Francii vznikla CETA se sekcemi v Paříži a Grenoblu až v r. 1959).

V prvním období výzkumu, zhruba do r. 1951, se pracovníci v oboru SP zaměřili na využití dvojjazyčného automatického slovníku pro doslovný překlad. Poprvé toto stadium překonali Oswald a Fletcher z IBM, kteří provedli analýzu ně[176]mecké syntaxe. R. 1951 se též konala první konference o SP v USA; organizoval ji Bar-Hillel a měla 18 účastníků. První význačný (a veřejný) pokus o SP z ruštiny do angličtiny, provedený v New Yorku v lednu 1954, měl kromě slovníkové části i několik jednoduchých pravidel pro výběr ekvivalentů, oddělení kořene a sufixu, změnu slovního pořádku, vyškrtnutí nadbytečného slova a přidání potřebného slova. Program pro tento pokus, připravený Dostertem, Garvinem a Sheridanem, obsahoval již lingvistické činitele rozpracované později.

Následující léta jsou charakterizována intenzívním soustředěním na teoretické řešení jednotlivých etap SP (sestavení slovníku, morfologická a syntaktická analýza vstupního jazyka a syntéza výstupního jazyka; algoritmizace a programování), stoupá počet pokusů na počítačích, konference a sjezdy jazykovědců zařazují do svých programů referáty o SP. V některých střediscích se výzkum SP dostává za stadium pokusné; tak na symposiu v Los Angeles (1960) bylo oznámeno, že se na strojích IBM překládá Pravda do angličtiny, a to rychlostí 1800 slov za minutu. Zprávou o mezinárodní konferenci o SP v Teddingtonu 1961[4] Mouninova chronologie hlavních událostí končí.

Mezeru více než tří let, která dělí teddingtonskou konferenci od současnosti jsme schopni zaplnit z jiných pramenů jen částečně; nejnovější publikace, totiž Current Research and Development in Scientific Documentation č. 13, Washington, listopad 1964, zejm. s. 191 až 239, referující o celosvětovém stavu výzkumu v SP (podle zpráv dodaných pracovišti z různých států), zahrnuje pouze výsledky dosažené zhruba do konce r. 1963. Výzkumné zprávy dodalo celkem 50 pracovišť ze 16 zemí. Již z těchto čísel je patrno, že počet výzkumných pracovišť zabývajících se SP významně stoupl. Zprávy informují spíše o tom, které výzkumné etapy byly započaty a dokončeny, než o tom, jaká je jejich teoretickolingvistická a metodologická náplň. Úplně dokončených, fungujících systémů SP je zatím jen několik, a to v USA. Zdá se, že jedním z nejspolehlivějších je systém pro překlad z ruštiny do angličtiny vypracovaný v Bunker Ramo Corporation (dříve Thompson Ramo Wooldrige inc.) Merselem, Edmundsonem, Garvinem a dalšími. Velká část skupin je v etapě zkušebních překladů a pracuje často s více než jednou dvojicí jazyků. Hotové slovníky, právě tak jako morfologické a syntaktické algoritmy se podle výsledků revidují a dále vyvíjejí. Několik nově založených skupin referuje jen o přípravném stadiu práce.

Ve dvou případech se při SP používá převodního jazyka. Originální přístup uvádí skupina na universitě v Kjušu (Japonsko), kde se pracuje s angličtinou, němčinou a japonštinou. Každý z těchto tří jazyků může být vstupním nebo výstupním jazykem a může tvořit dvojici s kterýmkoli ze zbývajících. Překládá se pomocí společného programu.

Část I — postuláty uvádí na prvním místě postuláty nelingvistické. To je jistě oprávněné vzhledem k vzniku myšlenky SP. Ukázalo se však, že žádná z níže uvedených disciplín (např. kryptografie, teorie informace, logika, psychologie) nemůže sama o sobě dát SP pevný základ; SP je disciplína svou podstatou lingvistická, třebaže souvisící s jinými obory, z nichž přijímá podněty.

Mnozí z pracovníků na SP, např. Weaver, usilovali o nalezení analogií mezi kryptografií a překladem. Později však byl tento postup všeobecně odmítnut. Mounin to odůvodňuje takto: již Weaver konstatoval, že všechny dešifrovací systémy jsou založeny na statistice četnosti písmen nebo jejich kombinací v daném jazyce. Překlad jako problém kryptografický by znamenal založit jej na četnostech slov; avšak sémantická pole se v různých jazycích liší a nelze identifikovat slova v jednom jazyce podle toho, jak často se jich užívá v jazyce druhém.

Postulát informačněteoretický, tj. usilující o adaptaci Shannonova — Weaverova modelu pro překlad (I. A. Richards, V. Yngve), nemohl, jak praví Mounin, pro SP přinést nic nového; kanálu, s nímž pracuje selektivní teorie informace, využívá pouze „signifiant“ sdělení, nikdy „signifié“. Podle Mouninova názoru může mít teorie informace smysl pro překlad jen tehdy, bude-li vybudována taková teorie informace, která bude mít vztah k významu. — O to se pokusil [177]Bar-Hillel s Carnapem, avšak jen pro umělé jazyky (tzv. sémantická teorie informace[5]).

Jistě lze souhlasit s Mouninovým názorem, že moderní logika nemůže odhalit nebo vysvětlit systém syntaktických struktur nějakého přirozeného jazyka, nýbrž že ho může pouze popsat, reprezentovat ve formě symbolů; symbolismus může fungovat jen tehdy, je-li předchozí lingvistická analýza adekvátní lingvistické realitě. Jako příklad je mimo jiné uvedena Bar-Hillelova kategoriální gramatika (v první podobě z r. 1953), která má kořeny v polské logice třicátých let (K. Ajdukiewicze), a Chomského transformační gramatika. Dodejme pro úplnost k Mouninovým výkladům, že Chomsky načerpal mnoho podnětů z logických prací Quinových.[6]

Poslední z nelingvistických postulátů nazval Mounin postulátem kybernetické psychologie. Hodnotí v něm Ceccatovu italskou operacionalistickou školu. Pro řešení SP je třeba zkoumat povahu myšlení a na základě těchto výzkumů zkonstruovat stroj, který by mohl vykonávat některé lidské duševní operace a dávat jim slovní vyjádření. To znamená vybudovat úplnou teorii myšlení a jazyka. Mounin se snaží vysvětlit, že Ceccatův stroj nepřekládá proto, že by „myslel“, ale proto, že je do něho vložen předem připravený algoritmus, který není podstatně odlišný od všech ostatních algoritmů dosud vytvořených.

Pro počáteční práce na SP je typické, že v nich nacházíme málo navázání na to, co už bylo v lingvistice vykonáno. Objevila se i snaha vytvořit novou lingvistiku SP — ta byla později kritiky nazvána „prázdnou“ lingvistikou. Souviselo to se vznikem SP mimo lingvistiku. Po překonání počátečního stadia se začalo v plné míře využívat i starší lingvistické teorie. Od počátku měly důležitou úlohu při SP dva lingvistické postuláty, strukturalistický a postulát jazykových invariantů. První byl jen někdy v plné míře vyjádřen jako funkčně strukturalistický základ analýzy, druhý se projevoval v hledání jazykových univerzálií,[7] hlavně na rovině sémantické.

Třetí skupina postulátů, která se objevila až během výzkumů, se vztahuje k empirismu ve výzkumné práci, její pragmatické stránce (srovnávají se operace při překladu člověka a stroje), ke vztahu teoretické a aplikované lingvistiky. Zde se také stručně popisují principy překladu přes převodní jazyk, o němž druhá část knihy téměř mlčí.

Část druhá — problémy — se omezuje na otázky spojené s automatickým slovníkem a na problémy syntaktické. Autor nepřináší nová řešení těchto problémů, spíše dává přehled o tom, co bylo navrženo a uděláno na nejrůznějších pracovištích.

Slovníky jsou vůbec prvním elementem mechanizace překladu, neboť umožňují, aby se překládalo, ale bez dokonalé znalosti jednoho ze dvou jazyků. A proto při překladu pomocí stroje stály na prvním místě otázky slovníků. Při určení slova se zásadně vychází z čistě grafických kritérií: slovo jako posloupnost několika písmen předcházejících nebo následujících po mezeře. Co se týče složitějších případů, jako Johnʼs v angličtině nebo parlez-vous ve francouzštině, postupovalo se různě podle složitosti celkové analýzy.

K dalším problémům patří především forma automatického slovníku. Princip práce takového slovníku je jednoduchý a omezuje se na operaci porovnání zakódovaného slova vstupního textu s kódovým označením slova v slovníku. Nicméně při velkém obsahu slovníku hledání je příliš zdlouhavé a nákladné.

Mounin uvádí několik možností uspořádání automatického slovníku. První možnost je metoda „logaritmická“ navržená Boothem. Slova v slovníku jsou uspořádána podle čísel kódu od menších k větším. Číslo kódu vstupního slova se [178]odčítá od čísla slova uprostřed slovníku. Kladný výsledek znamená, že slovo patří do první poloviny slovníku, záporný, že patří do druhé. Polovina se pak dělí na čtvrtiny, ty na osminy atd. K hledání jednoho slova postačí přibližně 20 srovnání. — Druhá možnost předpokládá uspořádat slova podle frekvence. Tato metoda byla navržena Parkerem-Rhodesem a uskutečněna Takahaskim. — Další možnost spočívá v tom, že stroj uspořádá podle abecedy všechna slova překládaného textu, pak každému z nich přiřadí příslušné ekvivalenty a opět je uspořádá do původní podoby. Je to metoda Oettingerova. Stroj prochází text jen jednou.

Myšlenka tzv. mikroslovníku (specializovaný slovník pro zvláštní obor) vznikla při řešení značně různých problémů: měla jednak vyloučit posteditora a preeditora, jednak ušetřit místo v paměti stroje. Pojem mikroslovníku se setkal s kritikou z teoretického a praktického hlediska. Hlavní námitky byly vznášeny proti způsobu výběru slov do slovníku: formální definicí je totiž vymezen jako technický slovník specializovaného oboru, ale sestaven je podle statistického principu. Oswald, autor mikroslovníku, vycházel tu z předpokladu, že při grafickém znázornění frekvence se slova gramatická a obecná umístí v rychle klesající části křivky, kdežto slovům specializovaným bude patřit téměř horizontální průběh křivky, a že právě konec křivky patří do mikroslovníku. Ale nemusí tomu tak být vždy, neboť slova typická pro mikroslovník se mohou dostat do první poloviny křivky právě pro svou frekvenci, v čemž se Mounin shoduje s kritikou Boolovou. Automatický slovník pro SP se vyznačuje tím, že se neskládá ze slov, ale z kmenů, tj. standardních forem slova z paradigmatu.[8] Je to pojem čistě grafický a liší se od tradičního, např. fr. sloveso donner má jeden kmen, ale aller pět — vai-, va-, vont, all-, irr-. Formální klasifikace kmenů pro SP se rovněž nekryje s klasifikací běžně užívanou v gramatice. Tyto rozdíly znovu podporovaly snahu vytvořit zvláštní lingvistiku SP. Mounin souhlasí s Oettingerem a jinými autory, že zde nejde o konflikt mezi tradiční a aplikovanou lingvistikou, nýbrž že rozdíly jsou nevyhnutelné a jsou způsobeny různými cíli a kritérii, z nichž klasifikace jazykových jednotek vychází.

Mnohovýznamová slova přinesla mnoho potíží při SP. Lingvistika rozlišuje slova mnohovýznamová a homonymní; ale Buyssens ukázal, že tento rozdíl platí pouze v aspektu diachronickém, úplně mizí v aspektu synchronickém. Pro slova mnohovýznamová a homonymní navrhl nový termín — mnohovalentní (plurivalents) slova. Problém mnohovalentních slov, jehož řešení je obtížné z hlediska stroje, souvisí s problémem výběru vhodného ekvivalentu z několika možných ve výstupním jazyce. Mounin uvádí několik přístupů k řešení tohoto problému.

Nejstarší z řešení je předpoklad existence preeditora a posteditora, kteří by text patřičně upravovali; další návrh předpokládá takovou úpravu jazyka, že každé slovo může mít pouze jeden význam (tato myšlenka není neuskutečnitelná v rámci vědecké a technické literatury). Jedním z řešení je použít mikroslovníku, který zároveň pomáhá řešit problém „mnohovalentních“ slov. Zajímavá metoda byla navržena Yngvem a Dostertem: zavést „pole označení“ (champs de signification), kterých určil celkem sedm (prvotní význam, kontextový, strukturní, funkční, kulturní, chronologický, závislý na okolnostech);[9] metoda statistická pak spočívá v tom, že stroj vybírá nejfrekventovanější význam ze souboru synonymních ekvivalentů; nejčastěji navrhovaným řešením je využití kontextu. — Domníváme se, že se však v praxi vždy kombinuje více metod.

Pojem „sousloví“ se důležitým problémem nestal, jak se předpokládalo. Větším problémem je klasifikace sousloví: některá [179]se začleňují do slovníku jako lexikální jednotky, některá do slovníku idiomů. Navrhovaná řešení idiomatických výrazů lze v podstatě rozdělit na řešení pomocí slovníku idiomů a na využití kontextu.

V kapitole o kontextu Mounin porovnává jeho pojetí z hlediska obecné lingvistiky a stroje. V SP se kontext chápe velmi úzce jako malá posloupnost skupiny psaných slov, mezi nimiž se objevuje zkoumané slovo; bylo zjištěno, že kontext +2 x —2 je z hlediska sémantického zatím postačující pro analýzu SP.

Dále autor upozorňuje na velkou složitost syntaktických problémů, nicméně však podává jejich přehled velmi stručně. Úspěch doslovného překladu soustředil — podle Mounina — pozornost lingvistů na otázky slovníku a syntaktické problémy odsunul do pozadí. Ovšem ukázalo se, že bez důkladného řešení syntaktických otázek je nejen nemožné další zdokonalení SP, ale dokonce sám SP je pro některé jazyky neuskutečnitelný. Oswald a Fletcher se pokusili o syntaktickou analýzu na německém materiále.

První zkušenosti vedly ke konfigurační analýze, nejlépe rozpracované sovětskými lingvisty. — S návrhem „operační“ syntaktické analýzy přišel Bar-Hillel (analýza záleží v přípravě jednotlivých syntaktických operací pro postupné zpracování strojem) a pokládá za vhodné sloučit syntaktický výzkum se strukturní lingvistikou. — Jako jedna z existujících syntaktických teorií přicházela v úvahu distribuční syntax, vypracovaná americkou lingvistikou. Naděje na její využití se neuskutečnily, neboť vzhledem k potřebám SP počet distribučních tříd by přesáhl sta a počet kombinací by dosáhl astronomických čísel. — Syntax bezprostředních složek je prosta těchto nedostatků, neboť počet tříd tu klesá; problém je ovšem v tom, že pro dosazení správných významů do algebraických formulí je třeba mít obsáhlé tabulky významů a seznam slov. Jako východisko navrhl Harris metodu transformací, která by dovolila vymezit všechny syntaktické konstrukce. Ukázalo se, že není možné jednoznačně určit, které sémantické významy jsou vhodné pro dva transformáty a které nikoli. V této souvislosti uvádí Mounin ještě tzv. „transfer grammar“ jako zajímavou myšlenku. Pokládá ji pouze za nový název pro typologickou (přesněji však konfrontační) syntax dvou jazyků.

Jako další typ popisu se uvádí prediktivní gramatika vycházející z předpokladu, že při procházení věty zleva doprava lze předpovídat strukturu věty.

Zároveň s těmito pokusy o popis syntaxe se objevily myšlenky automatické analýzy syntaxe prováděné strojem. Tato analýza by mohla být založena na tradičním pojmu slovních druhů nebo na třídách distribuční klasifikace.

Vcelku lze říci, že kniha přináší potřebný přehled po různých otázkách lingvistické přípravy strojového překladu.


[1] Georges Mounin, La machine à traduire, Mouton, Hague 1964, 209 s.

[2] E. a K. Delavenay, Bibliography of Mechanical Translation — Bibliographie de la traduction automatique, Hague 1960.

[3] R. D. Ravič, Bibliografija zarubežnych rabot po mašinnomu perevodu (1960—1961), Moskva 1962.

[5] Y. Bar-Hillel — R. Carnap, Semantic Information, Communication Theory, London 1953, s. 503—512.

[6] W. V. Quine, From a Logical Point of View, Cambridge 19642. — Srov. B. Palek, Zajímavé podněty pro lingvistickou sémantiku, SaS 26, 1965, 250—262.

[8] Srov. K. Korvasová - B. Palek, Některé vlastnosti entropie českého slovníku, SaS 23, 1962, 58—66, zvl. s. 59.

[9] V. H. Yngve, Terminology in the Light of M. T. Research, Babel 2, 1956, č. 3, s. 128—132.

Slovo a slovesnost, volume 27 (1966), number 2, pp. 175-179

Previous Ján Horecký: Sborník prekladov o teórii informácie a jazykovede

Next Bogdan Terzić, Milada Nedvědová: Mezinárodní symposium k stému výročí úmrtí Vuka Karadžiće v Bělehradě