Časopis Slovo a slovesnost
en cz

Zajímavá práce o lexikálních otázkách strojového překladu

Ludmila Uhlířová

[Kronika]

(pdf)

Интересная работа о лексических проблемах машинного перевода / Travail intéressant sur les questions de la traduction automatique

Kniha A. G. Oettingera Automatic Language Translation (Cambridge, Mass. 1960, 380 s.) shrnuje výsledky práce harvardské skupiny (Computation Laboratory of Harvard University) na strojovém překladu. Je určena nejen pracovníkům v oboru strojového překladu, ale i těm, kteří se vůbec zajímají o nové metody v lingvistice.[1] Na základě rozsáhlých experimentálních výzkumů (na počítači Univac I) jsou v knize řešeny důležité lexikální a technické problémy překladu z ruštiny do angličtiny a je vybudován automatický slovník jako základ pro další výzkumy syntaktické a sémantické.

Práce je rozvržena do deseti kapitol; jim je předeslán úvod, v němž se autor mj. zmiňuje o svém pojetí matematické lingvistiky, uzavírá ji dvě stě bibliografických údajů. Tematika se týká v podstatě tří okruhů: technických otázek strojového překladu a zpracování informací (kap. 1—3), obecné teorie strojového překladu (kap. 4) a lexikálních otázek (kap. 5—10).

Kap. 1—3 jsou věnovány popisu strojů na zpracování informací, základům programování, technice sestavování blokových schémat a automatickému kódování. Ve výkladu převažují technické údaje a poučení o technických problémech, které lingvista ovšem nemůže sám vyřešit, ale s nimiž musí bát seznámen. Tyto čtyři kapitoly jsou pro čtenáře lingvistu užitečné a zajímavé; jsou doplněny názornými příklady. Zatímco lingvista obvykle musí čerpat fakta o technických aspektech strojového překladu z množství pramenů různé úrovně a různého technického zaměření, zde dostává souhrnné a přehledné poučení o problémech, které technika již vyřešila, i o problémech, které mají být vyřešeny teprve v budoucnu (dostatečně velká paměť stroje, rychlé automatické vkládání textu do stroje aj.), a získává dobrý přehled o dosavadních možnostech strojů, na nichž i jeho práce závisí. Výklad v prvních třech kapitolách není přetížen technickými detaily; přílišným jejich množstvím trpí však na některých místech kapitoly o slovníku.

Kap. 4 se zabývá obecnou problematikou strojového překladu. Teoretické otázky řeší autor shodně s Harrisem.[2] Překlad je podle autorova pojetí taková přeměna znaků nebo jejich reprezentantů v jiné znaky nebo jejich reprezentanty, při níž se význam nemění. Prvky jednoho jazyka jsou nahrazeny podle soustavy korespondenčních (v Oettingerově terminologii „transformačních“) pravidel ekvivalentními prvky druhého jazyka. Gramatika je množina pravidel pro analýzu (syntézu), tj. množina pravidel pro popis vlastností prvků jazyka a pro popis důležitých vztahů mezi těmito prvky; algoritmus analýzy, korespondenčních pravidel a syntézy lze podle autora pokládat za gramatiku typu Harrisovy gramatiky a za možné východisko pro vypracování převodního jazyka.

V kap. 5—10 jsou soustavně probrány lexikální otázky. Nejprve je vyložen systém automatického slovníku a jeho fungování (kap. 5—8). Kap. 9—10 jsou věnovány dílčím otázkám týkajícím se sestavování automatického slovníku a slovníkových operací, jejichž řešení bylo zvlášť obtížné nebo jichž lze využít při řešení problémů v dalších oblastech zkoumání. Podrobně je pojednáno zvl. o homonymii, dále o struktuře hesel na magnetofonovém pásku, o hledání a opravě chyb a o řadě otázek dalších. Jako výsledek řešení lexikálních problémů při překladu vznikl systém zvaný harvardský automatický slovník.

Struktura hesel v automatickém slovníku závisí na technických činitelích (např. na typu [158]strojové paměti), na způsobu řešení lingvistických otázek (flexe, homonymie aj.) a také na tom, jde-li o slovník jazyka vstupního nebo výstupního. U automatického slovníku ruštiny (jazyk analyzovaný) byly uloženy kmeny slov (pro totéž slovo více kmenů v případě hláskových variant) tak, aby bylo možno podle vypracovaného algoritmu utvořit od kmene libovolný tvar slova a naopak (je uveden podrobný seznam ruských koncovek, které se plně nekryjí s „klasickými“ koncovkami). V první etapě analýzy je možno se opřít jen o tvary slov v textu. Pomocí uvedeného algoritmu (před hledáním v slovníku) se zjistí koncovka a kmen. Při syntéze, při průběžném doplňování slovníku o nová hesla nebo při kontrole analyzovaného tvaru se obráceným postupem (od kmene) zjistí tvar slova.

Každému heslu v slovníku jsou přiřazeny charakteristiky morfologické (subst., adj., sloveso, neskl. slovo) a „funkční“ (životnost, vid aj.) podle speciálních klasifikačních tabulek. Sestavení tabulek a přiřazení vzoru se neděje automaticky a vyžaduje znalosti ruštiny; je-li známa třída slova, je možno automaticky podle zvláštního algoritmu tvořit slovní tvary. Klasifikační tabulky uvádějí 8 tříd adj., 38 tříd subst. a 46 tříd slovesných kromě výjimek.

Poloautomatickým postupem lze sestavovat automatický slovník nebo doplňovat již existující slovník o hesla nová. Vybraná slova (výběr je možno provádět např. probíráním souvislých textů nebo slovníků podle vhodných měřítek, např. podle frekvence) se morfologicky a „funkčně“ klasifikují a transkribují na magnetofonový pásek; dalšími operacemi se z tvaru slova zjistí kmen, stanoví se hláskově odlišné kmeny slova, provede se kontrola správnosti a slovo se zařadí do existující části slovníku; potom se opraví chyby vzniklé při některé operaci a stanoví se anglické korespondenty. Uvedený postup umožňuje průběžně doplňovat automatický slovník o slova nová a zlepšovat přesnost existujícího slovníku. (Za základ byl vzat slovník asi o 10 000 heslech.)

Hlavní funkcí harvardského automatického systému je opatřit slovo v textu úplnou informací, jíž může být charakterizováno jako izolovaná jednotka (bez zřetele na kontext). Tato informace je uložena u příslušného hesla v slovníku a je vyhledávána plně automatizovaným postupem. Výsledkem je „rozšířený“ text, tj. vlastně hrubý doslovný překlad. Může sloužit jako východisko při zkoumání syntaktických a sémantických vlastností ruského a anglického jazyka, na jejichž základě budou vypracovány algoritmy; je možno ho použít i při jiných lingvistických výzkumech mimo oblast strojového překladu; po redakci může plnit i funkci pomocného překladu.

Většina otázek přechodu od lexikální roviny k syntaktické se teprve řeší. Závěr knihy obsahuje proto spíše perspektivní náčrt. Byl již sestaven pokusný systém algoritmů strojového překladu a na vybraných ruských textech byly zkoušeny a cyklicky upravovány algoritmy syntaktické a sémantické. Rovněž byly učiněny pokusy o vytvoření systému, s jehož pomocí lze sestavovat algoritmy automaticky. Na těchto pokusných systémech budou výzkumy dále pokračovat.

Je třeba ocenit, že kniha souvisle a zevrubně zpracovává jednu z důležitých oblastí strojového překladu, je v ní vyložena nejen teoretická koncepce harvardské skupiny, ale zároveň jsou tu publikovány i výsledky desetileté práce s materiálem. Zvlášť je třeba ocenit sestavení pevného automatického slovníku, na jehož základě je možno rozvíjet výzkum vyšších rovin jazyka pro účely strojového překladu i pro účely jiné. V tomto směru přináší práce přístupnou formou bohaté poučení a mnoho podnětů.


[1] Viz též recenzi G. A. Tarasovové v čas. VJaz, 1961, č. 3, 137—9.

[2] Srov. zejména Z. S. Harris, Transfer grammar, International Journal of American Lingvistics 20, 1954, 259—270. Harris v článku navrhuje metodu zjišťování a měření rozdílů mezi gramatickými strukturami jazyků pomocí tzv. „transfer grammar“; to je množina instrukcí pro převedení („transformaci“) prvku jazyka A v odpovídající prvek jazyka B; instrukce zahrnují právě rozdíly mezi strukturami jazyků A a B.

Slovo a slovesnost, ročník 24 (1963), číslo 2, s. 157-158

Předchozí Blanka Borovičková: Percepční identifikace samohláskových pozičních a stylistických variant

Následující Marie Ludvíková, Ludmila Uhlířová: Československá konference o kybernetice