Časopis Slovo a slovesnost
en cz

Dvě americké konference o strojovém překladu

Eva Hajičová, Petr Piťha

[Kronika]

(pdf)

Две американские конференции о машинном переводе / Deux conférences américaines sur la traduction automatique

U příležitosti deseti let práce na strojovém překladu (SP) konala se v únoru 1960 v Los Angeles dosud největší americká konference o SP.[1] Jazyková analýza pro SP byla zde pojímána jako předpoklad pro nejrůznější typy automatizace práce s textem. Na druhé konferenci, uspořádané v Detroitu v červnu 1962, šlo výhradně o otázky syntaktické analýzy.[2] Na této konferenci byly dílčí problémy zadány jako debatní témata, která byla uváděna některým z nejinformovanějších pracovníků.

 

1. Konference v Los Angeles

1. 1. Současný stav výzkumu. Úvodní referát byl věnován přehledu výsledků dosažených v oboru SP v SSSR. Oceňovány byly zvláště pokroky v otázkách polysémie a využití SP pro teoretické otázky aplikované lingvistiky. Kritizováno bylo, že generalizace buď chybí vůbec, nebo vychází z nedostatečně reprezentačního materiálu. Tohoto nedostatku jsou si sovětští vědci vědomi a zaměřují se nyní na základní výzkum, v němž nejzajímavější jsou práce na převodním jazyku.[3]

Práce amerických skupin, po prvním empirickém a popularizačním období, je založena na mnohem soustavnějším bádání a na lepší spolupráci jednotlivých skupin. Mnoho skupin se soustřeďuje na rozbor jazyka, v němž je SP jen úzkou aplikací. Text se nerozebírá jen se zřetelem k jeho překladu do jiného jazyka, ale analyzuje se (částečně automaticky). S tím souvisí i nové, odlišné pojetí úlohy redaktora; v textu analyzovaném strojem označuje chyby v analýze tak, že to umožňuje opravovat programy rovněž zčásti automaticky.

1. 2. Metodologie. Hlavním problémem byla otázka cyklického postupu při přípravě SP a otázka, zda je třeba postupovat teoreticky nebo empiricky. Debata vyústila v tom smyslu, že příprava SP se vždy děje po cyklech tak, že na podkladě textu nebo nashromážděných lingvistických vědomostí je připraven zkušební program, který se zkouší na textech tak dlouho, až se zjistí místa, pro něž nedostačuje. Rozborem chyb dosavadního programu se získá [152]materiál k opravě a k zlepšení programu. V problému teorie či empirie dosáhlo se shody pouze v tom, že teorie a empirie se doplňují.[4] Lingvisté (D. R. Swanson aj.) hájili zásadu, že teorie má být empiricky podložena, ale text, z něhož se vychází, se má chápat jako východisko spekulace. Jde o postup od textu k programu, při němž se užívá poznatků nashromážděných v příslušných gramatikách a zároveň se konstruují složité příklady, které v textu ani v gramatice nejsou, ale jsou možné. Matematici (A. G. Oettinger aj.) se nezajímají o způsob, kterým teorie vzniká, ale o teorii samu; žádají pokus, jehož úspěch je jediným plně průkazným důkazem správnosti teorie, tedy postup od malé lingvistické zkušenosti k teorii, spekulativní rozšíření teorie a její prohlubování na základě chyb v pokusech. — V otázce budoucnosti SP došli debatující k závěru, že SP je možný a bude se asymptoticky blížit k dokonalému překladu. Další rozvoj SP očekávají všichni od vyšších fází automatizace práce s textem. Krajní pesimismus Bar-Hillelův[5] nesdílel zde nikdo; za pesimisty zde platili ti, kteří mluvili o dlouhé době přípravy SP, o jistých omezeních možností, kdy stroj vydá více eventualit, a o pravděpodobné nutnosti, že i u nejlépe připravených strojových překladů (odborných textů) bude musit upravit text redaktor.

1. 3. Gramatický rozbor. J. W. Marchand se ve svém referátě pokoušel o sestavení modelu německé oznamovací věty. Model, skládající se ze 17 členů, byl ověřován jednak reakcí několika informátorů, jednak na cvičeních z německých cvičebnic. Jako nejvhodnější typ gramatiky pro syntézu se doporučuje adaptace generativní gramatiky Chomského. Zajímavá je zpráva o pokusu poloautomatického třídění a automatického „ohýbání“ anglických jmen (6 tříd) a sloves (8 tříd) jakožto části anglické syntézy.

1. 4. Syntax. Vztahem mezi analýzou podle bezprostředních složek a analýzou podle syntaktických závislostí[6] se ve svém referátě zabýval D. G. Hays. Ukazuje, že tyto vztahy mezi oběma postupy existují a že je možné nalézt pravidla, která je formálně přesně popíší.[7] Domnívá se, že ani jeden z postupů neuspokojuje lingvistu úplně a uvažuje o vzájemném doplňování termínů a výsledků obou těchto postupů (viz 1. 6). — M. Zarechnak popsal řešení některých těžkostí, které vznikají sřetězováním předložkových konstrukcí v ruštině. Třetí referát byl v podstatě částí generativní gramatiky němčiny, zpracované podle pravidel Chomského. J. R. Applegate v ní probral generaci jmenné fráze. P. L. Garvin vyložil svůj návrh na postup při syntaktické analýze, při níž vychází nikoli od věty jako základní jednotky, ale od grafické podoby morfémů. Z vnitřní stavby (formy) přechází k vnější funkci jednotky a tím se dostává na vyšší rovinu věty. Na nové rovině hledá nejdříve gramatické informace. Analýza se provádí nikoli zleva doprava nebo naopak, nýbrž podle větných rovin směrem nahoru a podle důležitosti větných prvků. Autor se snaží co nejvíce vytěžit z poznatků evropské lingvistiky o stavbě věty. V diskusi se několikrát ozvala otázka hranice syntaxe a sémantiky (viz 1. 2). Zájem o sémantiku se totiž začal prohlubovat, když se ukázalo, že význam slova ve větě má vliv na gramatickou podobu svého okolí a že tudíž i zcela formální postup s ním musí počítat. Hranice mezi sémantikou a gramatikou nebyla nijak upřesněna. Nebylo též shody, zda pojem sémantika se má klást do protikladu k pojmu gramatika nebo k pojmu syntax.

1. 5. Slovník. Pokud jde o ukládání slov do slovníku, střetly se dva názory. Především snaha, aby již ve slovníku bylo vyřešeno co nejvíce gramatických problémů.[8] Proti tomu se uvádí, že by se po několika měsících nahromadilo téměř nezvládnutelné množství děrných štítků a že by kromě toho tento přístup byl velmi nákladný. Hlavním problémem tedy [153]zůstává otázka, jak velké lexikální jednotky se mají ukládat do slovníku (skupiny slov, slova, části slov, „kmeny“) (srov. 2. 8). Příznivý ohlas měla myšlenka segmentace (S. M. Lamb), a to oddělování nejen flexívních koncovek, ale i produktivních afixů, aby slovník identifikoval i neologismy, tvořené produktivním způsobem. Na druhé straně se pokládá za vhodné ukládat jako jednu jednotku ta kompozita a sousloví, jejichž význam není možno považovat za odvoditelný z významů složek.

1. 6. Zpracování informace a jazyková analýza. Na konferenci se hledaly styčné body mezi SP a jinými způsoby automatického zpracování textu. U SP jde o přenesení celé informace, u strojového referování o přenášení jádra (podstatné části) informace, kdy se vychází z názvu převedeného do logických formulí a z textu se vybírají další potřebné údaje. Není však dosud jasné, oč se opřít v textu; slova sama a jejich okolí nejsou dostatečnou oporou. Bude tudíž nutno přejít k hlubšímu jazykovému rozboru textu a používat výsledků získaných v analýze pro SP. Další referáty a debata se týkaly vztahů různých modelů jazyka a vztahu jazyka a modelů. A. G. Oettinger popisoval výhodu zásuvníku (push down store) při překládání jazyků umělých i přirozených. P. L. Garvin podal definici jazyka jako systému znaků s vnitřní stavbou, která sestává ze dvou rovin organizace (fonémy a morfémy) a několika rovin integrace. Této definici podle něho nevyhovují zjednodušené umělé jazyky. Tvrdí, že jazyk lze zkoumat přímo, a není proto nutné vytvářet model, který by teprve umožňoval přiblížit se k jazykovému materiálu. Model jazyka je oprávněn jen jako výsledek pokusu, tedy jako definiční model (srov. 2. 9).[9]

1. 7. Sémantické otázky. S úvahami o míře přesnosti SP vždy těsně souvisí otázka, jaké jsou teoretické a praktické hranice řešení sémantických problémů; jde především o automatický výběr vhodného výstupního ekvivalentu pro slovo vstupního jazyka. Ke správnému rozhodnutí je třeba vždy uvažovat okolí slova v textu. Všechny způsoby řešení mnohoznačnosti slov mají jeden společný rys: sémantickou klasifikaci lexikálních jednotek na různém stupni. U odborného textu se řeší automatické vybírání ekvivalentů vhodného pro daný obor,[10] provádí se klasifikace uvnitř slovních druhů (automatické třídění jmen podle kategorií rozvíjejících adjektiv) nebo klasifikace různých druhů slov v odlišném okolí podle jejich významu (je založena na vyhledávání správných ekvivalentů podle shodných číselných kódů).

1. 8. Programování a technické vybavení. V sekci programování se referenti zaměřili hlavně na snadnost, efektivnost a automatičnost programování a na otázku použití speciálních kódovacích systémů (tzv. programovacích jazyků Comit, Mimic) pro programovéní lingvistické analýzy. V druhé sekci se jednalo hlavně o tom, jak jsou práce lingvistů a jejich výsledky ovlivněny dosažitelným technickým vybavením a naopak. Pozornost byla soustředěna na otázku, zda je třeba vyvinout speciální počítač pro SP. Odpověď na tuto otázku byla jednoznačně záporná, a to proto, že SP nemá dosud takové postavení, aby konstrukce speciálních počítačů byla rentabilní.

 

2. Konference v Detroitu

2. 1. Větný rozbor (parsing). V debatě byly konfrontovány různé postupy při automatickém rozboru věty a různé způsoby uspořádání lingvistických údajů (uložených v tabulkách různého typu nebo přímo v programu). Spor o to, kterých rovin jazyka se týká rozbor věty při SP (zda morfologie a syntaxe, nebo všech rovin, dokonce i logické roviny stojící nad sémantikou), zůstal neřešen. Analýza je tu většinou chápána jako rozbor jazyka k získání lingvistických údajů vůbec a parsing jako aplikace analýzy na text tak, že připisujeme jednotkám věty jejich gramatické ukazatele. Vztah rozboru věty (parsing) a analýzy také zůstal nejasný.

2. 2. Shoda. V této problematice šlo především o vyjasnění pojmů concord, agreement a solidarity, s nimiž podle M. Zarechnaka je třeba zacházet různě podle čtyř různých rovin jazyka, morfologické, syntagmatické, syntaktické a čtvrté, blíže neurčené, vyšší roviny. Shoda je u různých skupin často chápána zúženě [154]jen jako shoda adjektivního a řídícího jména; shoda subjektu a predikátu je izolována.

2. 3. Řízenost. Názor, že pro účely SP není nutné tradiční rozdělení na shodu a řízenost, který byl v debatě vysloven, nebyl obecně přijat. Mluvilo se též o rozlišení silné a slabé řízenosti, pro něž však nebyl nalezen dokonalý rozlišující znak, a o nutnosti získat široký materiál o rekci a rozvití sloves, a to s pomocí strojů (srov. 1. 1 a 1. 2).

2. 4. Problém vložených konstrukcí (nesting). Vložené věty ani jiné prvky vložené mezi řídící a závislý člen se někdy nepovažují za vážný problém a nepokládá se za nutné určovat hranice syntaktických celků na začátku analýzy. Nicméně se ukazovalo, že jde o veliký problém teoretický a především praktický, jednak proto, že při analýze mohou vznikat chybná spojení, jednak proto, že rozbor celých souvětí je složitější než rozbor vymezených malých celků, zvl. při prediktivní analýze.

2. 5. Vztah morfologie a syntaxe. Několik odborníků navrhovalo mluvit jen o třech rovinách v jazyce: fonologické, gramatické a sémémické. Převládl však názor, že je nutno zachovat dělení na morfologii (nauka o tvoření slovních jednotek věty) a na syntax (nauka o sestavování větných celků), i když tu není ostré hranice a analýza nepostupuje podle rovin, ale komplexněji.

2. 6. Slovní druhy. Při diskusi o problémech které vznikají křížením kritérií pro dělení slov na slovní druhy, bylo doporučováno považovat za zvláštní slovní druh slova s dvojí syntaktickou funkcí (např. bank adj. a subst. v angl.); při syntaktickém dělení by se mělo přihlížet k tomu, jaké členy (možná i morfologické slovní druhy) může to které slovo ve větě řídit. Potíže, které vznikají při překladu z jazyka typologicky odlišného vedly D. G. Hayse k myšlence převodního jazyka (mluvil o nutnosti najít mimojazykovou nebo sémémickou rovinu, v níž by jazyky byly shodné).

2. 7. Slovosled. Všeobecně se uznává, že slovosled jako jev jazyka mající často (ne vždy) relevanci gramatickou a obsahovou, musí být zkoumán. H. Hiż aj. hájili názor, že se při srovnávání několika jazyků projevuje v slovosledu jaderných vět méně rozdílů než v slovosledu vět odvozených transformacemi, a proto doporučovali dojít ve vstupním jazyce překladu do roviny jader a nehledat korespondence v celé šíři transformačních rovin obou jazyků. Podle V. H. Yngveho však není podstatného rozdílu mezi analýzou a vyhledáváním jader. A. G. Oetttinger chce provádět analýzu bez zřetele na slovosled a rozlišit dvě třídy vět: věty, v nichž pro výstupní jazyk není třeba měnit slovosled, a věty, kde je změna nutná. Teprve u druhého typu by se uváděl do chodu slovosledný program.

2. 8. Algoritmické a tabulkové vyhledávací techniky. Nutné spojení obojího postupu přiznávali všichni. Rozdíly mezi nimi jsou dány jen poměrem velikosti tabulek a algoritmu. Poněvadž se jednalo hlavně o morfologické rovině, bylo poukazováno na to, že tento poměr je určován typem jazyka (flexívní jazyky vyžadují postup více algoritmický) a vlastnostmi počítačů. Byly ukázány různé způsoby ukládání slovní zásoby (viz 1. 5). V závěru bylo konstatováno, že technika analýzy se může značně lišit od syntézy.

2. 9. Modely a teorie. Po probrání pojmů se došlo k závěru, že není rozdíl mezi modelem a teorií; modelem je vyjádřena teorie a teorií popisujeme model. Složitost modelu užitého při SP je úměrná dokonalosti překladu a závisí na tom, kolik rovin jazyka je podrobeno analýze a syntéze: zda pouze lexikální nebo postupně též morfologická, syntaktická a sémémická.[11] Yngve doporučil dělit modely na analytické (pro analýzu vět v SP) a jazykové (pro analýzu jazyka jako systému) (srov. 1. 6 a 2. 1).

2. 10. Speciální problémy. Jednání se týkalo otázek čínštiny (přepis znaků), arabštiny atd. Většina pracovišť používá analýzy na bezprostřední složky a vychází přitom z prací Chomského.

Praktické problémy, které se nashromáždily od zahájení prací na SP, vyvolaly v život velmi důkladnou teoretickou práci, která, i když se tu znovu řeší, ba i znovu nalézají věci lingvistům dobře známé, má dnes v lingvistice širší dosah než pro SP. Za hlavní nebezpečí, které práci brzdí, považují američtí lingvisté termi[155]nologické nejasnosti, které mohou při vysoké abstraktnosti vyjadřování vést k hlubokým neporozuměním (proto téměř všechna jednání začínala diskusí o termínech). Důležité je i zjištění, že naprostá většina amerických odborníků považuje nové možnosti automatizace práce s textem a problémy, které tím před lingvisty vyvstaly, za významný intelektuální a společenský problém, který pokládají za řešitelný, ovšem v průběhu možná dlouhé doby.


[1] Proceedings of the national symposium on machine translation, ed. H. P. Edmundson, Prentice-Hall, London 1961.

[2] Summary of the proceedings of the conference of federally sponsored machine translation groups on MT-oriented syntactic analysis, Wayne State University, rozmn. 1962.

[3] Referáty z této sekce obsahují informace staré dnes 4—5 let. Některé názory jsou dnes překonané, některé postupy jsou hlouběji a dokonaleji propracovány — viz zprávu o prediktivní analýze Oettingerovy skupiny na Harvardově universitě v tomto č. SaS, s. 144.

[4] Často se přechází neorganicky od dvojice pojmů teorie-empirie ke dvojici teorie-praxe.

[5] Y. Bar-Hillel, Four Lectures on Algebraic Linguistics and Machine Translation, 1963; viz též pozn. v SaS 24, 1963, 160.

[6] Viz o tom u P. Nováka, Některé otázky syntaktické analýzy z hlediska SP, SaS 23, 1961, 9—20.

[7] Více a nověji tento vztah popisuje H. Gaifman, Depedency systems and phrase-structure systems, RAND, Santa Monica, California, 1961.

[8] Srov. ref. o práci skupiny E. Reiflera, SaS 24, 1963, 284.

[9] O těchto problémech přednášel P. L. Garvin na své pražské přednášce v létě 1962.

[10] Viz o tom ref. o práci skupiny v Seattlu, SaS 24, 1963, 284.

[11] U tohoto jinak velmi různě užívaného termínu jde tu zřejmě o rovinu významové výstavby vět.

Slovo a slovesnost, ročník 25 (1964), číslo 2, s. 151-155

Předchozí Emanuel Michálek: Z literatury o českém humanismu

Následující Zdenka Palková: O entropii rytmu