Časopis Slovo a slovesnost
en cz

Sovětská konference o automatickém zpracování textu

Pavel Vašák

[Rozhledy]

(pdf)

Советская конференция об автоматической обработке текста / Conférence soviétique consacrée au traitement automatique du texte

Jazykověda se v poslední době značně technizuje a stává se jednou z nejdůležitějších složek při řešení informačních problémů moderní společnosti. Při automatickém jazykovém zpracování, tj. při strojovém překladu, indexování, anotování, ukládání a vyhledávání informace aj., dnes už není prvotním problémem malá kapacita pamětí samočinných počítačů, ale především vypracování algoritmů analýzy a syntézy jazyka a jazykových projevů.

Strukturní a statistické lingvistice se zaměřením k využití samočinných počítačů se věnuje již delší dobu velká pozornost v SSSR. Výrazem toho byla i konference zabývající se automatickým zpracováním textu metodami aplikované lingvistiky. Konference se konala 6.—9. října 1971 v kišiněvském polytechnickém institutu a navazovala na dvě předcházející věnované problematice matematické lingvistiky a zvl. frekvenčních slovníků: v r. 1966 v Leningradě a v r. 1968 v Minsku.[1] V oficiálním názvu kišiněvské konference poprvé chyběla problematika frekvenčních slovníků, zatímco aspekt strojového zpracování zůstal stále centrem zájmu. Samozřejmě to neznamená, že by snad na konferenci problematika frekvenčních slovníků zcela chyběla; přistupuje se k ní však z hlediska využití frekvenčních slovníků pro automatické zpracování textu. Prvořadou otázkou již není metodika sestavování frekvenčních slovníků, ale především studium smyslu získaných dat a jejich praktické využití. Pokud jsme informováni, pozornost se nesoustřeďuje na velké frekvenční slovníky jazyka, ale na slovníky jednotlivých funkčních stylů a oborů (tzv. podjazyků) a získané frekvenční seznamy slouží k zefektivnění vyučování na odborných školách, zejm. vysokých, i jako podklad k překladu a anotování textů z dané oblasti.

Práce konference byla rozdělena do sekcí a podsekcí podle rozebíraného tématu: (1) statistická lingvistika — její obecné otázky i studium statistické struktury textu, gramatická statistika, statistika grafémů a fonémů, statistika uměleckého textu, vytváření minimálních slovníků jednotlivých oborů aj.; (2) strukturní analýza, tj. kombinatorická metoda v morfologii, pravděpodobnostní analýza syntaxe a lexika, lexikální a syntaktická valentnost; (3) teoretické problémy automatického zpracování textu — sémantická analýza textu, hloubková a povrchová syntax, informační systémy a jejich matematická teorie, automatické indexování textu; (4) pravděpodobnostní strojový překlad, indexace a anotace textu — informační charakteristiky textu, statistický popis textu pro strojový překlad (automatické slovníky), sémantický strojový překlad, pravděpodobnostní strojové indexování a anotování, morfologicko-syntaktický strojový překlad, algoritmické jazyky pro strojové řešení lingvistických úloh.

Tento přehled jednotlivých sekcí ukazuje, že se na konferenci probíraly otázky matematické lingvistiky i příbuzných oborů v plné šíři. Práce konference probíhala ve všech čtyřech sekcích současně, jinak nebylo možno zajistit přednesení všech přihlášených referátů (150) a umožnit diskusi. Nebylo proto v silách jednotlivce zúčastnit se práce všech čtyř sekcí a je proto třeba litovat, že autor této zprávy byl jediným československým (i jediným zahraničním) účastníkem. Ovšem sborník vydaný ke konferenci obsahuje základní teze všech referátů, i těch, které nemohly být předneseny pro nepřítomnost referentů (o. c. v pozn. 1). V některých případech se proto odvoláváme k tezím a nikoli k přednesenému referátu.

Ústředním tématem konference bylo automatické zpracování textu a jeho fungování v soustavě člověk-stroj-člověk. V tomto smyslu dal celé konferenci ráz zahajovací referát R. G. Piotrovského, vedoucího všesvazové skupiny Statistika řeči.[2] R. G. Piotrovskij zdůraznil [251]oprávněnost termínu inženýrská lingvistika, která spočívá v široké spolupráci jazykovědy, matematiky a výpočetní techniky.[3] Poukázal na to, že se nikde tak jasně jako v inženýrské lingvistice neprojevují klasické opozice v jazykovědě: jazyk - mluva (strojový text neodpovídá existujícím jazykovým normám), synchronie - diachronie (opozice mezi fixovaným strojovým popisem jazyka a otevřeným dynamickým systémem přirozeného jazyka), signifiant - signifié (stroj nemůže plně předat smysl textu). Proto vzhledem k systému člověk-stroj-člověk je nutno se soustředit na fungování reálného jazyka ve stroji (zvl. sestavování „strojových gramatik“) a na příjem textu čtenářem (měření sémantické a statistické informace v textu a její příjem člověkem). — Základní cíle inženýrské lingvistiky jsou: (1) zefektivnit vyučování mateřštiny i cizích jazyků, aby se učitel mohl věnovat jen pedagogické práci; (2) vytvořit fungující informační systémy, tj. především „průmyslový“ strojový překlad, automatické referování, anotování a indexování, ukládání a vyhledávání informace; (3) řešit problematiku literárněvědnou, zvl. zpracování literárního dědictví pro poznání vývoje jazykových a literárních norem.

Sekce lingvistické statistiky se soustředila na řešení problémů (1) a (3), ovšem poznání statistické struktury textu je v podstatě základní požadavek pro pravděpodobnostní strojový překlad, anotování aj. (srov. dále). Ukázalo se, že je nutno rozpracovat především teorii lingvistické statistiky, která by umožnila srovnání a doplnění jednotlivých výsledků (v diskusi V. I. Perebejnosové, L. N. Zasorinové aj.). V tomto smyslu poukázala T. A. Jakubajtisová na důležitost statistické typologie textů, protože je podkladem pro stratifikaci jazyka i základem většiny teoretických i praktických otázek. V. V. Bogdanov studoval vztah různých koncepcí jazyka a řeči vzhledem k pravděpodobnostem statistickým a lingvistickým a uvedl jejich možnou interpretaci. Podobné otázky řešila L. N. Zasorinová a soustředila se na koncepci lingvistické statistiky předloženou G. Herdanem i na vztah mezi lingvistikou deskriptivní a kvantitativní. Z jednotlivých statistických technik byl rozebírán koeficient korelace (V. K. Vojnov) i koeficient mnohonásobné korelace (L. N. Beljajeva) a jejich použití pro srovnání frekvenčních seznamů. Ve větší míře se začíná používat tzv. distribuční koeficient, zvl. v souvislosti s distribučními (raspredeliteľnyje) slovníky, v nichž je údaj o frekvenci doplněn i počtem skupin, knih a užitečností slova vypočtenou na základě distribučního koeficientu.[4] A. P. Vasiljevič poukázal na dva druhy četností: objektivní, získané z textu a vhodné pro statistickou analýzu textu, stylistickou statistiku a problémy autorství, strojový překlad aj., subjektivní, získané pomocí informantů. Minimální slovníky je nutno kombinovat ze slov majících vysokou frekvenci objektivní a ze slov s vysokou frekvencí subjektivní. — J. Tuldava studoval blízkost lexikální struktury dvou uměleckých textů na základě jejich teoretického sjednocení,[5] A. E. Pinskaja se zabývala problematikou překladu uměleckého textu (Gorkého Matka rusky, anglicky španělsky a německy), podobnou problematiku řešil P. I. Kopajev (repertoár frazeologismů v Kantově díle a jeho rus. překladech). V. Ja. Slepak se zabýval vývojem individuálního stylu u T. Dreisera a S. Lewise a poukázal na autorské tendence uvnitř jednoho textu i v celém uměleckém vývoji. — V SSSR pokračuje rovněž statistický výzkum verše, jak o tom referoval Ju. I. Levin; studoval statistickou homogenitu množiny textů daného metra [252]vzhledem k jeho jednotlivým rytmickým formám. Polemizoval s pojmy jako „Puškinův jamb“, který má smysl až po důkazu homogenity souboru puškinských jambů z jednotlivých období uměleckého vývoje.

Základním „technickým“ problémem při zpracování textů na počítači je jejich vstup do stroje; děrování vstupního textu vyžaduje dosud značné množství času.[6] Autorský kolektiv (F. A. Kaganov, G. P. Melnikov, V. I. Perebejnosová, S. I. Chmelnik) informoval o automatickém vstupu textu do stroje pomocí učícího se automatu (autoři A. V. Dorožkin, F. A. Kaganov a S. I. Chmelnik získali na automat patent). V souvislosti s tímto automatem referovala V. I. Perebejnosová o zahájení kolektivního výzkumu současného anglického jazyka; jeho cílem je v rámci výpovědi získat repertoár typů gramatických vztahů, jejich kombinatoriku i frekvenci a zjistit nejčastější lexikální vztahy jednotlivých slov, jejich skupin apod.

Z dalších referátů v sekci lingvistické statistiky je nutno ještě upozornit na aplikaci Fucksova modelu, studium tzv. rozložení mezer, srovnání publicistiky NDR a NSR z hlediska lexikálního, studium gramatické normy a statistické postižení jejích tendencí při event. kodifikaci[7] atd. V této sekci přednesl svůj referát i autor zprávy; zabýval se programem pro automatické zpracování textu, zvl. získání konkordance, frekvenčního seznamu a dalších statistických charakteristik nezbytných zvl. pro studium sporného autorství.

Prohloubení poznatků lingvistické statistiky a studium statistické struktury textu je základem pro úspěšné provedení strojového překladu, indexování a anotování textu aj. z hlediska pravděpodobnostního (statistického). Práce na těchto problémech i praktické výsledky jsou spojeny především se skupinou „statistika reči“. Neznamená to však, že by ostatní sovětské kolektivy nedosáhly významných úspěchů, ovšem velký kolektiv, jeho kvalitativní i kvantitativní složení (jazykovědci, matematici, programátoři, „inženýrští lingvisté“), jednotná metodika, jasná představa cílů, dostatek strojového času a v neposlední řadě i osobnost vedoucího zajišťují rychlý pokrok. Skupina se nejprve zabývala studiem informační struktury jazyka a textů (entropie a redundance) a vytvářením frekvenčních slovníků různých funkčních stylů a oborů (resp. tzv. podjazyků).[8] V této oblasti výzkum samozřejmě pokračuje, zvl. z hlediska vztahu mezi sémantickou a statistickou informací v textu, ovšem díky shromážděným údajům o statistické struktuře textu (frekvenční slovníky funkčních stylů a oborů) mohla skupina přejít ke konkrétním pokusům o pravděpodobnostní strojový překlad, anotování textu aj. Při pravděpodobnostním přístupu k uvedeným úkolům se vychází ze zkráceného popisu jazyka (bazovyj jazyk), který je vytvářen jako určité statistické přiblížení ke skutečné lexikální a gramatické soustavě jazyka. Nejde ovšem o jazyk jako celek, ale o jeho určitou podsoustavu (tzv. podjazyk), která generuje texty s úzkou tematikou. Informace obsahující popis této podsoustavy se vybírá pravděpodobnostním způsobem, tj. zařazují se vysoce frekventované jazykové elementy, které mají navíc rovnoměrné statistické rozložení v sledovaných textech.

Právě z počátku se mohlo zdát sestavování velkého počtu speciálních frekvenčních slovníků zbytečným, ovšem ukazuje se, že tyto slovníky jsou mimo jiné základní informací pro automatické jazykové zpracování. Na jejich základě se sestavuje automatický slovník vstupního a výstupního jazyka. Každý automatický slovník se skládá ze dvou částí: obecně používaná slovní zásoba (slovar’ obščeupotrebiteľnoj leksiki), která je společná frekvenčním slovníkům různých funkčních stylů a určuje se především korelační metodou. Tato část je nezáměnná a obsahuje např. pro překlad angl. vědeckotechnických textů asi 3000 tvarů slov a 500 obratů (dvojice, trojice atd. slov) — na výstupu jim odpovídá asi 100 000 rus. tvarů. Záměnná část, slovník oboru [253](otraslevyj slovar’) obsahuje v průměru 8000 tvarů slov a 2000 obratů, kterým odpovídá několik desítek tisíc ruských ekvivalentů. Ruské ekvivalenty každého tvaru slov i obratu vstupního jazyka jsou seskupovány do sémantických hnízd, kde jsou uspořádány a rovněž i přiřazovány podle četnosti rus. ekvivalentu v odpovídajících rus. textech. Vstupní i výstupní jednotky jsou dále vybaveny gramatickou informací, což umožňuje doplnit automatický slovník morfologickými a syntaktickými algoritmy, které plní úlohu filtru při volbě výstupní jednotky zpracovávaného textu. Zhruba lze říci, že text na vstupu je frekvenčně zpracován, na základě klíčových slov je určena jeho tematika, ev. sestavena i anotace; podle tematiky je volena záměnná část slovníku, uložená v paměti počítače. Porovnáním slovníku vstupního textu se slovníkem vstupního jazyka jsou jednotkám přiřazovány gramatické a morfologické informace, „hnízdo“ rus. ekvivalentů a tak se získá překlad „slovo za slovem“. Psychometrické pokusy ukazují, že tohoto překladu může s úspěchem užívat středně kvalifikovaný překladatel, který nezná terminologii oboru, resp. odborník zpracovávané oblasti, který málo zná uvažovaný jazyk.

Naznačená metodika automatického zpracování obsahuje velký komplex složitých otázek lingvistických, matematických a programátorských (užívají se počítače řady Minsk), ke kterým se vztahovaly i jednotlivé referáty ve čtvrté sekci. V současné době je automatický slovník prověřován na dlouhých textech a ukazuje se, že koeficient pokrytí je asi 95 %. Získaný překlad je tak možno považovat za pravděpodobnostní přiblížení ke správnému překladu, pořízenému člověkem. Skupina zároveň pracuje na syntaktické a sémantické problematice strojového překladu a tak bude možno dosavadní výsledky lexikálního překladu zpřesnit. Ovšem už nyní jsou výsledky velice nadějné a jsou příslibem i pro nás, uvážíme-li, že se používá shodné řady počítačů (Minsk 22, Minsk 32 aj.).

Obecně se ukazuje, že největším problémem při automatickém zpracování jazyka je jazyk výstupní, tj. v tomto případě ruština. Není to překvapující, protože program analýzy jazyka je snazší než program syntézy. — Na závěr konference byla podniknuta exkurze do výpočetního střediska Polytechnického institutu, kde byl na počítači Minsk 22 předveden strojový překlad a anotování anglického textu.

Sekce druhá a třetí, jejichž zasedání jsem se nemohl zúčastnit, se zabývala rozpracováváním strukturní kombinatorické metody (N. D. Andrejev) a dále především problematikou dokumentaristickou, tj. obecnými otázkami informačních systémů.

Konference v Kišiněvě ukázala, že v SSSR dnes existuje matematická lingvistika se zaměřením na využití počítačů, s aplikacemi na konkrétní informační problémy moderní společnosti. Ukázalo se, že pro řadu otázek již bylo dosaženo velmi cenných praktických výsledků. Konference umožnila široké a jedinečné setkání pracovníků společenských a exaktních věd spojených společným základním úkolem. Základním problémem je nedostatečná znalost fungování mateřského jazyka i projevů zvl. v soustavě člověk-stroj-člověk. Proto je nutno prohloubit strukturní a pravděpodobnostní analýzu jazyka z hlediska jazykového, psychologického, literárního aj. Tyto výzkumy je nutno zaměřit i při „tradičním“ přístupu tak, aby byly kdykoli k dispozici právě soustavě člověk-stroj-člověk.

Za cíl do budoucna si konference klade vytvoření průmyslového strojového překladu, automatické referování a anotování, zefektivnění vyučování mateřštině i cizím jazykům[9] a zpracování literárního dědictví klasiků. Proto byly odpovědné státní orgány požádány o vytvoření státního centra pro automatické zpracování textu, vytvoření laboratoří a speciálního výpočetního střediska vybaveného počítači dostatečné kapacity, dále se požaduje průmyslová výroba čtecích automatů, ustavení centra ke koordinaci práce a vydávání časopisu „Prikladnoje jazykoznanije“.

Matematické lingvistice se věnuje v SSSR značná pozornost, jak o tom svědčí i ten prostý fakt, že se konference zúčastnilo 400 pracovníků, kteří byli navíc zástupci jednotlivých pracovních [254]kolektivů. Konference výrazně potvrdila vysokou úroveň sovětské matematické lingvistiky a zároveň její význam pro dnešní společenské dění. Příští podobná konference se má konat v r. 1973 v Machačkale.


[1] Zprávu o konferenci v r. 1966 podala H. Svobodová v Jazykovědných aktualitách 1967, č. 1, s. 37; srov. též sb. Mežduvuzovskaja konferencija po voprosam častotnych slovarej i avtomatizacii lingvostatističeskich rabot, Leningrad 1966. — Zprávu o konferenci v r. 1968 napsal P. Vašák, SaS 29, 1968, 444—446; srov. sb. Častotnyje slovari i avtomatičeskaja pererabotka lingvističeskich tekstov, Minsk 1968.

[2] Skupina byla založena v r. 1959 a tvoří ji pět pracovních kolektivů: leningradský, běloruský, dagestánský, středoasijský a moldavský. Do celé skupiny se hlásí více než sto jazykovědců, matematiků, programátorů, inženýrů aj.

[3] Srov. obdobný termín linguistics engineering; viz k tomu D. G. Hays, Introduction to Computational Linguistics, New York 1967; srov. rec. K. Paly, Strojová lingvistika — skutečnost nebo sen?, SaS 32, 1971, 83—86.

[4] Distribuční koeficient je upravený koeficient variace a používá se při korekci frekvence získané z výběru rozloženého do několika skupin (stylů). Má-li určitá jednotka frekvenci soustředěnou pouze do jedné skupiny, distribuční koeficient je nulový. Maximální hodnoty nabývá pro jednotku rovnoměrně frekventovanou ve všech skupinách. Vynásobí-li se původní frekvence vypočteným distribučním koeficientem, je tím dána určitá možnost k charakterizování tzv. užitečnosti slova. Koeficientu použil A. Juilland ve své řadě frekvenčních slovníků románských jazyků, srov. např. Frequency Dictionary of Spanish Words, The Hague 1964; viz rec. M. Těšitelové Na okraj nových frekvenčních slovníků, SaS 26, 1965, 270—275. U nás použil Juillandova distribučního koeficientu J. Mistrík, Frekvencia slov v slovenčine, Bratislava 1969 (rec. M. Těšitelové, SaS 32, 1971, 65—68). Rozborem koeficientu se zabýváme v naší rec. ČL 1970, 483—488.

[5] Srov. Ch. Muller, Initiation à la statistique linguistique, Paris 1968; viz P. Novák, SaS 31, 1970, 258—262.

[6] Výzkum týkající se automatického zpracování textu je z tohoto hlediska podmíněný. K dnešnímu dni je třeba více času k přípravě textu a jeho zavedení do stroje než pro běžné „ruční“ anotování, překlad apod. Ovšem dosavadní pokrok v řešení optického vstupu informace do stroje vzbuzuje oprávněnou naději i na automatizaci této fáze.

[7] Srov. L. K. Graudina - V. A. Ickovič - L. P. Katlinskaja, Grammatičeskije varianty, Moskva 1971.

[8] Srov. R. G. Piotrovskij, Informacionnyje izmerenija jazyka, Leningrad 1968; dále srov. sborníky prací členů skupiny Entropija jazyka i statistika reči, Minsk 1966; Statistika reči, Leningrad 1968; Statistika teksta I a II, Minsk 1969 a 1970 (srov. ref. J. Králíka O minském sborníku „statistika teksta“, SaS 32, 1971, 378—380); sb. Inženernaja lingvistika, Leningrad 1971.

[9] Člen skupiny „statistika reči“ P. M. Aleksejev nedávno vydal Častotnyj anglo-russkij slovar’-minimum po elektronike, Moskva 1971, ve kterém jsou uvedeny nejčastější tvary slov a nejčastější terminologická spojení z anglických elektronických textů; anglické jednotky jsou doplněny ruskými ekvivalenty. — Slovníky tohoto typu mají v rus. jaz. pedagogice svou tradici, srov. např. I. V. Rachmanov, Slovar’-minimum po anglijskomu, francuzskomu i nemeckomu jazykam, Moskva 1947.

Slovo a slovesnost, ročník 33 (1972), číslo 3, s. 250-254

Předchozí Jarmila Panevová: Vid a čas v sovětské monografii A. V. Bondarka

Následující Josef Štěpán: Výzkum mluvené němčiny ve Freiburku