Časopis Slovo a slovesnost
en cz

Úvod do automatického zpracování jazykových údajů

Ludmila Uhlířová

[Chronicles]

(pdf)

Введение в автоматическую переработку языковых данных / L’introduction à l’élaboration automatique des données linguistiques

Sborník Natural Language and the Computer (ed. P. Garvin, Mc Graw-Hill Company, New York 1963, 398 s.) je soubor 17 článků 14 autorů, jejichž záměrem je podat přehled o novém vědeckém oboru, totiž o automatickém zpracování jazykových údajů. Sborník vznikl ze série universitních přednášek, jejichž autory byli matematikové, logikové a lingvisté, a obsahuje přehled názorů na danou problematiku a přístupů k ní. Působí dojmem vzorně uspořádaného celku teoreticky náročných článků, které na sebe navazují a doplňují se. V tom se projevuje dobrá práce editorova.

Automatickým zpracováním jazykových údajů rozumíme systém nebo program, jehož pomocí počítač zpracovává text v přirozeném jazyce tak, aby na výstupu byl buď jiný text v přirozeném jazyce nebo jeho kódová reprezentace (text v umělém jazyce). S tímto oborem je těsně spjato konstruování modelů a snahy o formalizaci v lingvistice vůbec.

Automatické zpracování jazykových údajů zahrnuje tyto hlavní úkoly:

(1) strojový překlad (tj. transformace textu ve vstupním jazyce do výstupního jazyka), (2) automatické re[204]sumování (abstracting; tj. taková transformace textu v přirozeném jazyce do téhož jazyka, že výsledkem je výtah z původního textu) a (3) automatické indexování (tj. transformace přirozeného jazyka do umělého jazyka, který se může, ale nemusí skládat ze slov jazyka přirozeného). Další úkoly, již speciálnější, jsou např. automatické redigování textu v přirozeném jazyce (tj. určité typy úprav v textu, např. vynechávání redundantních prvků), automatická korelace (zkoumají se vzájemné vztahy dvou úseků textu v přirozeném jazyce s textem uloženým ve stroji) a automatická dedukce (v textu přirozeného jazyka se vyhledávají logické implikace, odvoditelné deduktivní logikou).

Hlavní problematika automatického zpracování jazykových údajů je ve sborníku rozdělena do šesti okruhů tak, že ke každému tématu vysloví svůj názor lingvista, logik i matematik. Okruhy jsou tyto: I. formalizace pojmové struktury (modelování v širokém slova smyslu) a analýza přirozených jazyků, II. obecné problémy využití matematiky a počítačů pro lingvistickou práci, III. obecné otázky zpracování údajů v přirozeném jazyce, IV. strojový překlad, V. vyhledávání informací a VI. hodnocení vztahu matematiky a lingvistiky, zejména v souvislosti se zpracováním jazykových údajů. Tyto okruhy postupně probereme.

I. V tomto oddíle je především podán přehled o výzkumech v oblasti generativní transformační gramatiky a vývoji transformačních teorií do r. 1963 s odkazem na nejdůležitější práce z tohoto oboru (Stockwell, The Transformational Model of Generative or Predictive Grammar). Změny v pojetí transformační teorie v souvislosti se zahrnutím sémantiky do popisu jazyka[1] se v tomto přehledu ještě neodrážejí.

Nesnadnou četbou je článek Sebeokův (The Informational Model of Language: Analog and Digital Coding in Animal and Human Communication), v němž se sdělování řeči studuje jako informační systém s přirozeným jazykem jako kódem. Vychází se z Jakobsonova modelu sdělování se šesti komunikativními funkcemi: 1. emotivní; 2. fatická — sdělení slouží jen k udržení komunikace, např. k zjištění, je-li sdělovací kanál v pořádku; 3. poznávací; 4. impulsní (conative) — obsahuje sdělení, která nemají pravdivostní hodnotu, např. vokativy a imperativy; 5. poetická; 6. metajazyková — dovolující převedení do jiného znaku. Jádrem článku je srovnání komunikativních funkcí u člověka a u zvířat. Zvířata komunikují tak, že jejich znaky jsou nejčastěji zakódovány analogově. U člověka je část znaků zakódována analogově a část digitálně; digitální mechanismus řeči je posledním vývojovým stupněm a je vlastní snad jen člověku. Komunikativní funkce 1 a 2 a pravděpodobně i 3 a 4 se vyskytují u zvířat, funkce 5 a 6 se zdají být výlučně lidské. K plnému porozumění této stati by měl být lingvista vybaven některými znalostmi z biologie (učení o nervové soustavě), z matematiky a z teorie komunikace.

V čele prvního oddílu stojí článek Garvinův o definičním modelu jazyka (The Definitional Model of Language). Garvin, editor, je v sborníku zastoupen největším počtem prací (kromě výše uvedeného článku ještě dvěma samostatnými články: A Linguist’s View on Language Data Processing a Syntax in Machine Translation, a jedním článkem spolu s Karushem, Linguistics, Data Processing and Mathematics) v různých oddílech sborníku. Teoretický přínos Garvinových prací shrneme do několika bodů:

a) Jazyk je podle Garvina systém znaků, jehož strukturu tvoří tři soubory rovin, a to dvě roviny strukturace, dvě roviny organizace a více než jedna rovina integrace. Roviny strukturace jsou rovina fonémů, resp. grafémů (tj. [205]rovina jednotek, které rozlišují znaky, aniž samy jsou znaky) a rovina morfémů (tj. rovina jednotek, které samy tvoří znaky; mají tedy význam — nezávisle proměnnou, i formu — závisle proměnnou). Roviny integrace vznikají tak, že prvky jazyka (fonémy a morfémy) integrují do jednotek vyššího řádu složitosti (fused units, např. slabika, slovo), které fungují jako celky s vlastnostmi jdoucími nad vlastnosti pouhé sumy vlastností komponentů. Rovin integrace může být mnoho. Roviny organizace (selection and arrangement) mají funkce, které lze podle autora přirovnat k funkcím pojmenovací a usouvztažňovací, jak je u nás formuloval V. Mathesius.

b) Právě vyložené pojetí jazyka je základem definičního modelu, který odráží všechny obecné vlastnosti přirozeného jazyka. Rozlišuje se, jako u každé definice klasické, genus (přirozený jazyk patří mezi znakové systémy) a differentia specifica (tento systém znaků má speciální strukturu, tvořenou třemi soubory rovin). Obecnými vlastnostmi se míní takové vlastnosti, které mohou být východiskem pro studium libovolného jazyka; jsou odvozeny formalizací intuitivního pohledu na jazyk (“a formalization of common-sense criteriaˮ, a to tak, že výsledkem je spíše klasická definice nebo soubor definic než model v moderním logickomatematickém smyslu. V souvislosti s tím se rozlišuje dvojí rozdílný postup modelování (“two ways of conceptualizationˮ). V prvním případě se vychází z matematického (předem známého nebo pro daný účel vytvořeného) systému, který se naplňuje lingvistickými pojmy. V druhém případě se postupuje od pozorování lingvistických faktů k jejich systematizaci. V obou případech je výsledkem model, a to buď v případě prvním formální nebo quasiformální matematicko-logický model, jakým je např. model transformační, nebo v případě druhém širší pojmový rámec, např. definiční model Garvinův.

Garvinův observační přístup k jazyku vychází z názoru, že tam, kde je objekt poznání přístupný přímému pozorování (v lingvistice jazyk), je výhodné a oprávněné nestudovat jeho model, nýbrž vycházet z minulé zkušenosti a systematizovat pozorování, tj. abstrakcí dospět k množině předpokladů o našem předmětu zkoumání. Je pravda, že dosud větší praktické výsledky přinesly metody intuitivní, nepříliš formalizované, a že v nových přístupech zůstává velké množství otevřených problémů.[2] Garvinovy úspěchy při strojovém překladu jsou jistě velmi přesvědčivé. Zároveň však v nejnovější době musíme ocenit např. i výsledky dosažené pomocí prediktivní analýzy, systému s vysokým stupněm formální propracovanosti.

Článek o definičním modelu jazyka je Garvinova nejlepší teoretická práce. Na pojetí jazyka zde uveřejněném jsou založeny všechny jeho práce ostatní, ať už se týkají použití deskriptivistických metod na různých jazykových rovinách,[3] anebo se zabývají novými úkoly v souvislosti s využitím samočinných počítačů v lingvistickém výzkumu.

c) V článku o syntaxi při strojovém překladu se vykládají nejdůležitější zásady a možnosti syntaktického postupu. Mimo jiné se zde vykládají postupy, které u nás popsal P. Novák a označil za „postup od textu k systému“ a za „postup od systému k textu“.[4] V Garvinově skupině v Thompson Ramo Wooldridge v Kalifornii, pracující na překladu z ruštiny do angličtiny, se řeší syntaktická etapa postupu od systému k textu, a to touto metodou: Nejprve se ve větě hledají tzv. fulcra (opory), tj. slova, která nesou největší množství gramatické informace. Kolem nich jsou nakupena další [206]slova. Věta jako celek má své fulcrum právě tak jako její různé složky. Např. fulcrem v ruské hlavní větě je predikát; je-li znám predikát, je možno činit předpoklady o možných subjektech a objektech.[4a] Větu tedy procházíme několikrát a při každém průchodu hledáme určitá slova a vztahy. Podrobně jsou popsány 4 hlavní etapy syntaktické analýzy s určením, co se při každé etapě analyzuje.

d) S automatickým zpracováním jazykových údajů jakožto oborem lingvistickým se čtenář může seznámit v českém překladu Garvinova článku.[5] Porozumění tomuto článku však předpokládá, že čtenář je alespoň v hrubých rysech obeznámen s Garvinovou koncepcí jazyka a jazykové strukturace, jak byla probrána výše.

e) Z hodnotícího srovnání matematických a empirických přístupů k řešení vědeckých problémů vyplynul jednoznačný závěr: Matematika neslouží jako prototyp vědeckých metod, nýbrž jako podpora empirie. Poskytuje pracovní nástroj a metodu pro zajišťování správných dedukcí. Dříve než budeme používat matematiky a počítačů v lingvistice, musí být vymezeny lingvistické jednotky a jejich funkce. Představují systémové konstanty jazyka, jejichž hodnoty se liší od případu k případu. Jsou to lingvistické ekvivalenty parametrů ve fyzikálním technickém problému.

II. oddíl obsahuje spíše mimolingvistické předpoklady pro zpracování jazykových údajů. Pojednává se tu o stupních využití matematiky v lingvistice (přímá aplikace, inventivní aplikace, modelování a vytváření lingvistické teorie; Karush, The Use of Mathematics in the Behavioral Sciences), o různých typech strojových jazyků, o principech činnosti počítačů a o programování (Melkanoff, Computer Languages; Ray, Programming for Natural Language). Tento oddíl pouze poskytuje základní informace lingvistům, kteří s možnostmi využití matematiky a počítačů v lingvistice dosud nebyli blíže seznámeni.

III. Kromě utřídění jazykovědných úkolů v oboru automatického zpracování jazykových údajů (Garvin) je v tomto oddíle vymezena úloha logiky (Maron, A Logician’s View of Language Data Processing) a matematiky, zvl. statistiky (Edmundson, A Statistician’s View of Linguistic Models and Language Data Processing), jako nástrojů řešení lingvistických úloh. Na řadě příkladů je ukázána aplikace pravděpodobnostních a statistických metod v oblasti lingvistických modelů (zvl. zajímavě je vyložen Carnapův — Bar-Hillelův sémantickoinformační model pro umělé jazyky v článku Edmundsonově) a v oblasti zpracování údajů (přístupy Luhnův, Edmunsonův a Wyllysův, Tanimotův, Bar-Hillelův, Oswaldův).

Od obecných otázek automatického zpracování jazykových údajů, na které je zaměřen předcházející oddíl, přechází se v dalších dvou oddílech ke dvěma odvětvím tohoto oboru, strojovému překladu a vyhledávání informací.

IV. Strojový překlad je odvětví nejrozpracovanější, vykazující nejvíce konkrétních výsledků. Kromě výkladu celkového procesu překladu (Hays, Research Procedures in Machine Translation) jsou tu vyloženy zvl. metody vyhledávání v slovníku (Harper, Dictionary Problems in Machine Translation), různé přístupy k syntaktické analýze (Garvin) a aspekty programovací (Mersel, Programming Aspects of Machine Translation). Zdůrazňuje se nezbytnost sémantické etapy strojového překladu, zároveň se však konstatuje její nerozpracovanost a nedostatek formalizace. Nejrychlejší z dosud známých metod vyhledávání v slovníku je metoda užívaná skupinou Lambovou na universitě v Kalifornii v Berkeley: aby bylo možno vložit do [207]paměti co největší slovník, slovníkové heslo se rozdělí tak, že ruský ekvivalent je oddělen od zbytku hesla; ruská část slovníku se vloží do paměti najednou tak, že kmeny slov se uloží bez prvních dvou písmen; místo nich se uvede pouze odkaz na seznam dvoupísmenových začátků; slova se stejnými začátky jsou uspořádána nikoli abecedně, ale podle délky. U tohoto systému je však nebezpečí, že ruský slovník přeroste možnosti paměti. Problém dostatečně velké vnitřní paměti byl dosud vyřešen jen v IBM; zde se používá fotoskopického disku, založeného na principu optickém. Z výkladů syntaktických (prediktivní analýza, zmíněný postup Garvinovy skupiny aj.) vybereme pro podrobnější seznámení systém projektivní gramatiky. Projektivní gramatika je druh závislostní gramatiky, vyznačující se touto vlastností: Jsou-li dvě slova ve větě ve vztahu závislosti, pak mezi nimi mohou stát pouze slova, která závisejí (přímo nebo nepřímo) na jednom z těchto dvou slov. Tato vlastnost má veliký význam pro úspornost modelu. V praxi se ukázalo, že angličtina a ruština jsou jazyky převážně projektivní.

Domníváme se, že určitý přirozený jazyk, např. čeština, může splňovat vlastnost projektivity v odlišné míře podle toho, co vezmeme za jednotku syntaktické analýzy. Projektivní gramatika totiž uvádí ve vztah strukturní a lineární uspořádání věty. Jednotka strukturní a slovosledná (lineární) není ve všech případech totožná: podle volby jednotky může být aproximace k projektivitě lepší nebo horší. Aproximace bude zřejmě tím lepší, čím více se podaří přizpůsobit pro tento účel slovosledné jednotky jednotkám strukturním, tedy např. v češtině v případě, že budeme za jednotku analýzy pokládat složené tvary slovesné, které jsou tvořeny více než jednou slovoslednou jednotkou.

V. oddíl, vyhledávání informací, je nejrozsáhlejší (Swanson, The Formulation of the Retrieval Problem; Hayes, Mathematical Models in Information Retrieval; Travis, Analytic Information Retrieval). Zahrnuje totiž mnoho různých úkolů s různým zaměřením. Podle Bar-Hillela se zde rozlišují dva základní druhy vyhledávání informací: 1. vyhledávání literatury, knih, článků o daném oboru a zpracování jejich obsahu, 2. vyhledávání „faktů“, odpovědí přímo na danou otázku. Přitom je třeba soubor, z něhož se informace vyhledávají, optimálním způsobem uspořádat. K tomu slouží různé pravděpodobnostní metody. Podle nich se jednotkám informačního souboru přiřadí tzv. relevanční číslo, vypočítané podle matematického vzorce (tyto vzorce se v různých koncepcích liší). Jím se vyznačuje místo v informačním modelu. Model je možno si představit např. jako body v mnohorozměrovém prostoru, opatřené váženými indexy (indexem se označí např. slova, která jsou reprezentativní pro nějakou část uložené informace). Lingvistickým předpokladem úspěšného fungování systémů pro vyhledávání informací je zpracování sémantiky — úkol, který se nyní dostává do popředí zájmu lingvistů.

Je třeba zdůraznit, že se v tomto sborníku snad poprvé v takové šíři pojednává o vyhledávání informací jako o problematice lingvistické. Zatím se dosud spíše psalo o technických otázkách vyhledávání informací, zde se otázky a problémy kladou z hlediska lingvistiky s tím, že lingvistika má v oboru vyhledávání informací zvláštní a nutnou účast. (Kromě článků v odd. V viz o tom též u Garvina.)

VI. O závěrečné stati Garvinově a Karushově jsme referovali výše.

Na rozdíl od většiny podobných prací není recenzovaný sborník pouhou řadou pokusů o řešení dílčích otázek z daného oboru, nýbrž představuje se tu — snad poprvé — vědeckou formou celý obor, v němž se již řadu let bádá a v němž se došlo k význačným výsledkům, obor, který má perspektivy v budoucnu se významně rozvinout.


[1] Viz P. M. Postal, Nový vývoj teorie transformační gramatiky, SaS 26, s. 1—13; srov. i zde ref. o knize Bachově, s. 200—203.

[2] The Transformational Theory, Panel. (R. Dallaire, W. W. Gage, P. L. Garvin, P. M. Postal, E. P. Hamp), Georgetown University Monograph Series on Language and Linguistics, No. 15.

[3] Viz zejm. soubor statí On Linguistic Method, 1964; bude recenzováno v SaS.

[4a] To se ovšem víceméně týká všech flektivních jazyků a ne nadarmo intuitivně již stará filologie u nich při analýze vycházela z „verba finita“ (stejně v latině jako při četbě staroindických textů). BHk

[5] Teorie informace a jazykověda, Praha 1964, s. 303—320.

Slovo a slovesnost, volume 26 (1965), number 2, pp. 203-207

Previous Bohumil Palek: První úvod do transformační gramatiky

Next Karel Pala: Současný stav, výsledky a perspektivy strojového překladu