Časopis Slovo a slovesnost
en cz

Populární výklad základů moderní matematické a strojové lingvistiky

Luboš Řeháček

[Rozhledy]

(pdf)

Популярное изложение основ современной математической и машинной лингвистики / Un exposé populaire des bases de la linguistique mathématique et automatique moderne

Moderní směry lingvistického bádání, opírající se o výtěžky matematiky a matematické logiky, prokázaly už dnes ve světě plně svou životaschopnost, teoretickou oprávněnost [148]a přinesly i některé pozitivní praktické výsledky, třebaže stojí vlastně stále ještě teprve na počátku svých možností. Dnes je již naprosto zřejmé, že nejde o dočasný módní dobový výstřelek, ani o plané experimentování, za což je byli mnozí ochotni pokládat ještě před 10—15 lety, ale o organické pokračování dosavadního vývoje lingvistické vědy — o její nové vývojové stadium, připravené jak jejím vlastním předchozím vnitřním vývojem (k němuž tak významně přispěly i ve světovém měřítku myšlenky a koncepce tzv. pražské školy), tak i rychlým a pozoruhodným vývojem dalších, styčných vědních disciplín v posledních 20—25 letech, o stadium odpovídající současné úrovni vědeckého myšlení technicky vyspělé společnosti 20. stol. Aplikace matematických a logických metod na jazykovědné zkoumání — při plném respektování vší jeho specifičnosti — postupně nejenže vedla k dalšímu zexaktnění lingvistiky, a tím i k prohloubení její vědeckosti, ale ve spojení s poznatky dalších vědních oborů a s jejich technickými aplikacemi jí odhalila i přímo nové perspektivy a postavila ji před nové, společensky aktuální úkoly. K řešení některých z nich (např. kvantitativní analýza češtiny a jejího stylového rozvrstvení, strojový překlad, problematika převodního a informačního jazyka aj.) platně přispívá už i dnešní česká a slovenská jazykověda.

Řada pracovníků v naší jazykovědě, jejichž příprava byla v minulosti většinou orientována jinak a postrádala hlubšího, cílevědomého matematického zaměření, si ovšem nové metody teprve postupně osvojuje; zájem o ně projevuje i širší odborná, zejména učitelská a technická veřejnost. Těm všem je určena kniha Cesty moderní jazykovědy (Jazykověda a automatizace), vydaná nedávno nakladatelstvím Orbis jako 47. svazek Malé moderní encyklopedie.[1] Zdařile ji zpracoval devítičlenný kolektiv pracovníků pražských akademických (Ústav pro jazyk český ČSAV) i vysokoškolských pracovišť (Centrum numerické matematiky při matematicko-fyzikální fakultě a oddělení algebraické lingvistiky na filosofické fakultě Karlovy university) za vedení P. Sgalla. Její vydání můžeme jen uvítat: Jde o první naši práci příručkového charakteru, uvádějící přístupnou formou čtenáře do celého komplexu aktuální problematiky matematické (algebraické, III. kap., i kvantitativní, IV. kap.) a strojové (II., V. kap.) lingvistiky, včetně jejich hlavních aplikací (jako je např. strojový překlad). Nebylo cílem autorského kolektivu předložit dílo, které by posouvalo kupředu hranice vědeckého poznaní, ale i sám vytčený skromnější cíl — podat populárněji pojatý přístupný výklad základních pojmů a principů, třebas i bez složitějšího matematického nebo logického aparátu (základní formule tu ovšem uvedeny jsou) — je v naší situaci nesporným přínosem. Autorům se dík jejich promyšlenému přístupu podařilo i při tomto omezení (ve všech oddílech práce ne ovšem stejně důsledném) na poměrně malé ploše 193 stránek kapesního formátu charakterizovat a zčásti i na příkladovém materiálu (toho by ovšem neškodilo zejména v abstraktněji zpracovaných partiích III. a IV. kapitoly více) dokumentovat hlavní postupy, jichž tyto směry bádání užívají.

Tak již v úvodní, obecněji pojaté kapitole (nazvané „Jazyk a společnost“, autoři P. Sgall a F. Daneš) je mj. zdůrazněn netradiční přístup ke zkoumání jazyka (dominantní úloha formálního rozboru a zřetel ke kvantitativním aspektům při maximální možné komplexnosti výzkumu), jejž lingvistice nabízí současná věda a který je zároveň nezbytný k tomu, aby mohly být splněny aktuální společenské úkoly, které klade na jazykovědu soudobá společnost, stojící na prahu druhé technické revoluce. Přitom autoři pochopitelně nemají v úmyslu redukovat celou moderní jazykovědu jen na lingvistiku matematickou a strojovou: právě v úvodní kapitole, usilující o zkratkové postižení vztahu jazyka a jeho vývojových tendencí ke společnosti, vymezují její místo v kontextu celé dnešní aktuální lingvistické problematiky. V této souvislosti se zastavují i u některých otázek, které s vlastní tematikou práce sice bezprostředně nesouvisí, ale v našem prostředí mají zvláštní váhu. Jde tu konkrétně o pro[149]blematiku jazykové a nářeční diferenciace soudobé češtiny (triáda spisovný jazyk ve své psané a mluvené formě — obecná čeština — nářečí), v poslední době opět dosti živě diskutovanou na stránkách SaS. V dané spojitosti nemůže jít ovšem o více než o pouhou zmínku; nemělo by proto smysl vytýkat autorům neúplnost výkladu nebo určitou jednostrannost jejich pohledu. Domnívám se naopak, že jejich výklady — vzhledem k vlastní tematice práce nesporně okrajové — mohly být ještě poněkud úspornější. Bylo by je možno zhutnit např. vypuštěním toho, co se na různých místech i v téže kapitole opakuje (jde ovšem jen o jednotlivosti, tak např. srov. na s. 23 a znovu na s. 26—27 shodnou zmínku o výběru spisovných a nespisovných prostředků v řeči a o možné různosti jeho hodnocení), spíše však důslednější koordinací s výklady v kapitole závěrečné (VI), zvláště v jejím pododdíle „Úkoly jazykovědy v naší společnosti“. Ten se totiž v mnohém překrývá s tím, o čem již byla řeč v kapitole úvodní (viz např. problematiku demokratizace spis. češtiny a otázky jazykové kultury), aniž se tato problematika řeší na podstatněji vyšším stupni nebo z odlišného hlediska.

V druhé kapitole „Jazyk a technika“ podávají autoři D. Konečná, B. Palek a P. Sgall nástin elementární problematiky strojového překladu a automatického ukládání a vyhledávání informací, tedy oborů pro širší veřejnost nejatraktivnějších, v nichž se aplikace netradičních metod a postupů jeví i masovému čtenáři nejefektivnější. Výklady v obou kapitolách vcelku výstižně postihují základní problematiku (jako je u strojového překladu teorie algoritmu analýzy a syntézy), aniž přitom pomíjejí otázky dosud uspokojivě nedořešené (stylovou problematiku, otázky synonymie při stroj. překladu, problematiku automatického referování v dokumentaci apod.). Jsou velmi instruktivní (zvláště pokud jde o výklad algoritmu analýzy vstupního textu při přípravě stroj. překladu) a co do formy svého podání přístupné i matematicky nebo logicky hlouběji neškolenému čtenáři. Poněkud podrobnějšího rozvedení by si zasluhovala vzhledem k neustále vzrůstající aktuálnosti dané problematiky, v mnohém přesahující vlastní rámec strojové lingvistiky, a také vzhledem k nabízející se nejednotnosti v jejím pojetí zmínka o převodním jazyce (s. 45); ta ve výkladech poněkud zapadla. Snad proto, že poučení se podává dosti roztříštěně (relativně nejpodrobněji se o převodním jazyce hovoří až na s. 100—102). Dobře zpracován je i oddíl věnovaný aktuálním otázkám automatizace v dokumentaci, třebaže některým mimolingvistickým otázkám této disciplíny (mám na mysli hlavně obecně známé principy desetinného třídění i jiných klasifikačních soustav, zčásti se to týká i indexů) se dostává až přílišné pozornosti.

Všeobecně se ve výkladech dostává po zásluze do popředí spíše teoretická stránka lingvistického aspektu problematiky, zatímco charakteristika vlastních technických prostředků realizace (automatů) a jejich fungování se řeší prostým odkazem na jiný, bohužel těžko dostupný svazek knižnice MME.[2] To lze sotva považovat za uspokojivé, alespoň stručné elementární údaje tu mohly být uvedeny. Dost odůvodněná se nezdá v této souvislosti ani jistá odtrženost podávaných výkladů o strojovém překládání a automatickém ukládání a vyhledávání informací od kapitoly o mechanizaci a automatizaci v lingvistice vůbec (kap. V.). Logičtější by bylo nejen jejich těsnější sepětí, jak je naznačeno např. i v závěrečném zpracování slovníkového hesla „Matematická lingvistika“ (s. 175—179), ale i přímo obrácení jejich vzájemného pořadí: problematika strojového překladu (analogicky je totéž možno říci i o probíraných otázkách automatizované dokumentace) je při vší své specifičnosti jen dílčí, i když bezpochyby zvlášť důležitou aplikací strojové lingvistiky vůbec.

Pokud pak jde o pátou kapitolu samu (nese název „Mechanizace a automatizace v lingvistické práci“ a zpracovali ji J. Panevová, P. Sgall a J. Štindlová), má spíše praktičtější, věcně informativní zabarvení: všímá si převážně „technologické“ stránky vlastního způsobu a postupu práce za použití moderních mechanizačních a automatizačních prostředků (děrnoštítkové techniky, samočinných počítačů a jejich [150]uplatnění v lingvistice mimo strojový překlad) a povšechně informuje o úkolech řešených nebo řešitelných za jejich pomoci (mimo to, o čem již byla řeč v kap. II). Neškodilo by však, kdyby tu byly přímo i podrobněji uvedeny konkrétní badatelské výsledky, jichž bylo touto cestou už dosaženo a o nichž jsou v textu i příležitostné, namnoze však ne příliš určité zmínky. Souhlasím ovšem plně s autory v tom, že důležitější než tyto jednotlivé dílčí příklady je správné pochopení celkového významu a nových perspektiv, jež skýtá strojová lingvistika jazykovědnému zkoumání: skutečnosti, že nejen otvírá možnost, ale i přímo naléhavě nabízí nutnost zpracovat rozsáhlý jazykový materiál jednotným způsobem, z hlediska nového teoretického přístupu, zkoumajícího jazyk jako fungující systém a umožňujícího na tomto základě širokou konfrontaci mnoha různých, strukturně odlišných přirozených jazyků (viz s. 158—159).

Nesporně náročnější než kapitoly II a V jsou pro čtenáře kapitola III, věnovaná základům algebraické lingvistiky (autoři L. Nebeský a P. Sgall), a do jisté míry i kapitola IV, uvádějící do problematiky kvantitativního studia jazyka (zpracovali ji P. Novák a M. Těšitelová).

Jádro třetí kapitoly tvoří stručný výklad základních principů generativní (gramatiky s konečným počtem stavů, nekontextové i kontextové frázové gramatiky a gramatiky transformační) a rekognoskativní gramatiky (kategoriální gramatiky Bar-Hillelovy se stručným připomenutím koncepcí starších, např. Ajdukiewiczovy). Je předností práce, že autoři tyto koncepce jako celek, ani jejich jednotlivé formule neabsolutizují, ale uvědomují si jejich podmínění konkrétním jazykovým materiálem převážně jazyků západoevropských (zejména angličtiny), na jejichž podkladě se konstituovaly.[3] Byli bychom ovšem příliš nároční, kdybychom od autorů požadovali, aby podrobněji charakterizovali míru omezenosti dosavadních koncepcí, danou touto skutečností. Ta vyplyne v detailech jasněji, teprve až bude učiněn soustavnější pokus vybudovat generativní (resp. rekognoskativní) mluvnici některých jazyků podstatně odlišného typu (např. silně flexívní češtiny), na čemž se pracuje. Zatím je možno jen povšechně poukázat na některé zvlášť zřetelné momenty (jako je jednostranné nedocenění morfologie, omezený pohled na syntax apod.), což také autoři naší kapitoly učinili (např. při charakteristice Bar-Hillelovy kategoriální mluvnice na s. 89, poznámky ke koncepci N. A. Chomského viz na s. 92n.).

Následující důležitý výklad analytických modelů teorie mluvnice, zvláště sovětských (O. S. Kulaginová, I. I. Revzin aj.), které se pokoušejí jednostranná hlediska překonat, není bohužel zase natolik podrobný, aby byly náležitě vysvětleny všechny pojmy, které tato koncepce přináší, a patřičně zdůvodněno jejich zavedení. Čtenář např. sice dobře pochopí základní pojmy rodiny a tvarového souboru (jsem ovšem na pochybách, je-li při celkové tendenci k internacionalizaci vědy účelné zavádění počeštěného symbolu TS, navíc i formálně svou dvojčlenností nepříliš výhodného), nabude představy o pojmu R-ekvivalence (méně se ovšem doví o jeho praktickém dosahu a použití), ale s jistou bezradností akceptuje jen matně vyložený pojem T-ekvivalence, jehož přesný obsah a ovšem i praktický význam jeho zavedení mu zůstane skryt. Jediná formulace ze s. 96[4] je příliš přibližná a neurčitá, než aby byla s to, není-li uveden ani konkrétní dokumentační jazykový materiál, věc náležitě objasnit. Příliš jasný není ani výklad pojmu S-konfigurace v koncepci Kulaginové-Revzina.

Přes logickou přesnost formulací v kap III i přes přísně dodržovaný logický postup výkladu jí můžeme vytknout někdy až nežádoucí abstraktnost, vyplývající z jen omezeného uvádění dokladového materiálu, přestože právě ono by mohlo výklad užitečně [151]ozřejmit a zpřístupnit. Jsem na př. na pochybách, je-li pedagogické začínat v elementární příručce určené pro jazykovědce, zvyklé pracovat s přirozenými jazyky, výklad principů generativní gramatiky příklady z vykonstruovaných umělých (třebas jednoduchých) jazyků, což už předem vylučuje možnost demonstrování a ověření příslušných derivačních pravidel na konkrétním jazykovém materiálu (s. 76—79). Postup by měl být možná spíše obrácený. Mutatis mutandis se totéž týká i výkladu operací krácení a tvaru zápisu kategorií v rekognoskativní gramatice (s. 89), zčásti i výkladu některých otázek při charakteristice analytické koncepce Kulaginové-Revzina (v. výše).

Za aktuální a podstatné pokládám konečně výslovné zdůraznění toho, že generativní gramatika (a totéž se týká gramatiky rekognoskativní i koncepce Kulaginové-Revzina) je modelem teorie mluvnice (s. 86). Týká se plánu langue, a nikoli parole, jak se někdy u nás chybně předpokládá i v pracích s dosti vysokými aspiracemi.

V kapitole věnované kvantitativní lingvistice je blíže dotčena jednak elementární problematika kvantitativních vztahů v slovní zásobě, jednak aktuální problematika teorie informace (ve svých kvantitativních aspektech). Stranou zůstaly některé další otázky, jako např. problematika kvantitativního hodnocení adekvátnosti strukturního popisu, metody zjišťování stupně typologické blízkosti nebo míry genetické spřízněnosti jazyků a další disciplíny. Výběr jen uvedených otázek můžeme ovšem považovat pro elementární příručku za oprávněný.

V oddíle o kvantitativních vztazích v slovní zásobě se vysvětlují některé základní pojmy kvantitativní lingvistiky, jako jsou pojmy frekvence,[5] délka textu, slovník textu, lexikon, rang, a charakterizují se vzájemné vztahy mezi těmito veličinami. Od jednoduchých souvislostí, jako je např. stanovení indexu opakovanosti, se postupuje k výkladu vztahů složitějších, jak je udávají zejména zákon Zipfův (zákon frekvenční distribuce), nověji upravený v kanonický zákon Mandelbrotův, Guiraudovy formule pro koncentraci a dispersi („bohatost“) slovníku textu, Yulova charakteristická konstanta, Herdanova formule pro postižení struktury slovníku, Zipfův pokus o vyjádření vztahu mezi frekvencí slova a jeho mnohoznačností, všeobecně se upozorňuje na souvislost délky a frekvence slova apod. I zde je ovšem třeba vzít v úvahu, že většina formulí byla vyvozena na základě studia poměrů v jazycích západoevropských, takže jejich aplikace na jazyky další (i slovanské) bude ještě vyžadovat určitého prověření. V této souvislosti postrádáme zmínku (třebas i kritickou) o některých již učiněných pokusech v tomto směru, jako jsou např. některé Veyovy příspěvky ke kvantitativnímu studiu české slovní zásoby a otázek s tím spojených.

V hutné zkratce jsou v dalším oddíle čtvrté kapitoly vcelku zdařile vyloženy základy teorie informace ve vztahu ke kvantitativní lingvistice; autoři tu ovšem předpokládají jistou předběžnou znalost základů počtu pravděpodobnosti. Nutno však poznamenat, že Shannonův základní vzorec pro výpočet entropie  je v textu publikace (na s. 117) uveden chybně, totiž ve zkreslené podobě .[6] V dalších výkladech se nicméně již většinou aplikuje v správné formě, i když bohužel ne zcela důsledně. Analogickou chybu viz např. v obecně formulovaném vzorci (4) na s. 119, kde se píše (o entropii podle pravděpodobnosti výskytu n-tic písmen)  místo náležitého

 

Příručka je uzavřena shrnující závěrečnou kapitolou a stručně zpracovaným encyklopedickým heslem „Matematická lingvistika“ (autor P. Sgall). Závěrečná kapitola [152]dobře shrnuje rozdíly mezi tradičním a moderním přístupem ke studiu jazykových jevů a v stručném přehledu ukazuje na přednosti novodobých algebraických metod.[7] Určité výhrady k ne zcela dostatečné koordinaci s kapitolou úvodní jsem již vyslovil výše. K zpracování encyklopedického hesla nemám připomínek, snad jen k jeho titulu: jeho obsah by lépe vystihoval nadpis „Matematická a strojová lingvistika“.

Zpracováním recenzované publikace poskytli její autoři první soubornější, dosti ucelený česky psaný pohled na elementární aktuální problematiku progresívních směrů moderní lingvistiky. Jejich kniha jistě dobře poslouží jako úvod ke studiu základů současné synchronní matematické a strojové lingvistiky, a to jak studentům a jazykovědcům, kteří potřebují základní orientaci v dané problematice, tak i širší veřejnosti.


[1] P. Sgall a kolektiv, Cesty moderní jazykovědy (Jazykověda a automatizace), Orbis, Praha 1964, 193 s.

[2] J. Gecsei - J. Pelikán - J. Klír, Matematické stroje, Orbis, Praha 1964.

[3] I tvůrci těchto koncepcí sami zpravidla chápou generativní gramatiku jako teorii konkrétního jazyka. Vypracování obecné generativní nebo rekognoskativní mluvnice je zatím postulátem budoucnosti.

[4] „Lze říci, že zhruba rozděluje slovní tvary podle slovních druhů. Ovšem díky různým nepravidelnostem přirozených jazyků vyjde počet ‚druhů‘ daleko vyšší, než na jaký jsme zvyklí.“

[5] Ovšem jen ve významu absolutní četnosti. Chybí výklad důležitého pojmu relativní četnosti, s nímž se však dále běžně operuje (zvl. v oddílu o teorii informace).

[6] Zřejmě jde o přehlédnutou tiskovou chybu. Na téže stránce si čtenář znalý základů středoškolské matematiky opraví jistě sám i další, jen drobnou tiskovou chybu v rozpisu symbolu pro aritmetickou řadu Ʃ ai.

[7] Jen náznakově (a spíše perspektivně) je tu dotčena i problematika sémantická, která zejména v starší, „klasické“ podobě frázové a transformační gramatiky, známé zvláště z prací Chomského a Leesových, ustupovala výrazně do pozadí, třebaže se o významu nových metod pro studium sémantiky vcelku nepochybovalo.

Slovo a slovesnost, ročník 27 (1966), číslo 2, s. 147-152

Předchozí Marie Racková: Příspěvek k teorii tvoření slov

Následující Bohuslav Havránek, Helena Křížková: Pokus o podrobnou učebnici srbocharvátštiny