Časopis Slovo a slovesnost
en cz

Nové sovětské příspěvky z kvantitativní lingvistiky

Jan Králík

[Discussion]

(pdf)

Новые советские работы по квантитативной лингвистике / New Soviet contributions to quantitative linguistcs

Řadu sovětských sborníků věnovaných kvantitativní lingvistice obohatily dva nové tituly, jejichž koncepce navazuje na sérii sborníků vydávaných v Sovětském svazu po mnoho let v redakci R. G. Piotrovského (Králík, 1971, 1973). Recenzované sborníky přinášejí řadu nových podnětných prohloubení klasické tematiky kvantitativní lingvistiky na základě velké zkušenosti z práce s materiálem a vlivem moderních interdisciplinárních pohledů.

Hlavním redaktorem sborníku Issledovanija v oblasti vyčisliteľnoj lingvistiki i lingvostatistiki (Izdateľstvo Moskovskogo universiteta, Moskva 1978, 190 s.) byl V. M. Andrjušenko, který také napsal úvodní stať (K voprosu ispoľzovanija koefficienta stabiľnosti v kačestve mery upotreblenija, s. 3—40). Autor vychází z bližší informace o koeficientu stability, jak jej ve svých frekvenčních slovnících zavedl A. Juilland (Těšitelová, 1965, 1969), vlastní myšlenka článku staví na obrácení známé výhrady, že většinu numerických textových charakteristik lze vztahovat pouze k tomu jazykovému materiálu, z něhož byly vypočteny: každá taková charakteristika by tedy měla být pro daný text typická a v jeho rámci invariantní. Konstantnost koeficientu stability by proto mohla indikovat homogenitu textu. Přestože Andrjušenkova úvaha staví na tvrzení vzniklém spíš z intuice než s širokého statistického šetření, lze ji logicky rozvádět dál: Vzhledem k algebraické spjatosti koefi[59]cientu stability se známým statistickým testem χ2 lze totiž koeficientu stability užít k definici testu se smysluplným lingvistickým významem (testovacím kritériem se stává přímo hodnota koeficientu stability). Aby bylo možno využít této výhody také prakticky, vypočetl Andrjušenko tabulky kritických hodnot nového testu pro různé četnosti a počty podvýběrů (na pětiprocentní hladině významnosti) i tabulky absolutních a relativních chyb koeficientu stability.

Zajímavou dedukci z nezávislého matematického modelu uvádí v druhém článku sborníku G. M. Chovanov (Nekotoryje voprosy količestvennogo povtorenija slova v tekste, s. 41—58). Vychází z intuitivního předpokladu, že opakování slov v textu je distinktivním rysem prózy a poezie a že pro ně má významnou úlohu linearita textu. Důkaz oprávněnosti druhé části předpokladu lze podle autora snadno provést pomocí náhodného výběru, který linearitu odstraňuje. Vlastní výzkum opakování slov a příslušný model autor převádí na výzkum a modelování vzdáleností mezi výskyty a propočítává kombinatorické možnosti výskytu různých vzdáleností (Spang - Hanssen, 1956). Výpočty jsou provedeny za předpokladu, že všechny vzájemné vzdálenosti výskytů téhož prvku jsou stejně pravděpodobné, přestože taková situace v textu nikdy nenastává. Vzhledem k tomu odchylka od tohoto pravděpodobnostně ideálního stavu se pak považuje za určitou „odchylku od normy“ (od „nezávislého matematického modelu“). Na tomto základě buduje Chovanov model rozložení pravděpodobností výskytů různých vzdáleností v textu dané délky pro slova dané frekvence a porovnává jej se skutečným stavem v poezii M. Cvetajevové a A. Tvardovského. Dochází k závěru, že skutečné opakování v krátkých odstupech (krátké vzdálenosti) je mnohem častější, než by bylo možné očekávat. Tento posun označuje Chovanov za charakteristický pro poezii a na řadě příkladů dodává, jak opakování slova zvyšuje účinnost výpovědi (Těšitelová, 1968).

Neméně zajímavý a metodicky originální přínos znamená ve sborníku článek Ju. K. Orlova (Modeľ častotnoj struktury leksiki, s. 59—118). Upozorňuje na určitou stagnaci současného výzkumu matematických a statistických aspektů frekvenčních slovníků způsobenou podle autora přílišným důrazem na jejich praktické využití a kritickému pohledu podrobuje i několik tradičně užívaných koeficientů, zejména tzv. koncentraci slovníku a její Guiraudovu úpravu s tím, že příliš podléhá dynamice nárůstu textu a není pro text charakteristikou dostatečně invariantní. Podobně Orlov upozorňuje, že spíše než o pravděpodobnostech lze uvažovat o středních hodnotách výskytů jazykových jevů a o rozložení středních hodnot sledovaných veličin. To je zajímavá myšlenka, která by jistě stála za další ověření. — Vlastní Orlovův model vychází z předpokladu, že Zipfova - Mandelbrotova formule (Mandelbrot, 1954) zachycující vztah mezi frekvencí (pravděpodobností výskytu) slova a jeho pořadím ve frekvenčním slovníku platí vždy počínaje určitým minimálním rozsahem textu. Takový rozsah označuje Z („zipfovský“) a povyšuje ho na základní textovou charakteristiku. Ve vlastní Zipfově - Mandelbrotově formuli pak vyjadřuje jednotlivé konstanty pomocí Z a pomocí předpokladů o existenci nejfrekventovanějšího prvku a o stálém přírůstku slovníku. Konstantám v Zipfově - Mandelbrotově formuli tak přisuzuje konkrétní lingvistický význam. — Za předpokladu, že sledovaný text má nejméně svou „zipfovskou“ délku Z, odvozuje vzorec pro očekávaný počet slov dané frekvence, tedy vlastně popisuje teoretický průběh frekvenční křivky. Orlov ukazuje, že pro každý text existuje konečné Z a na řadě příkladů je také uvádí (v Tolstého Vojně a míru je to 24 000 slov, tedy již dvacetina celého rozsahu, u Puškinovy Pikové dámy naopak 35 000 slov, tedy více než pětinásobek vlastní délky textu, u Evžena Oněgina se Z kryje s délkou textu atd.). Autor provádí také podrobnou analýzu odchylek, graficky porovnává empirii a teorii a dochází k závěru, že tzv. „zipfovský“ rozsah Z je univerzální mírou koncentrace slovníku, jeho dosažení signalizuje i určité naplnění, uzavření textu vzhledem k přírůstku dalších nových slov.

[60]Ju. V. Vannikov v jednom ze dvou závěrečných článků (Grammatičeskije svjazi i sintaksičeskije funkcii, s. 119—170) publikoval své zkušenosti z formulování kritérií pro sestavování tabulek shrnujících údaje ze syntaktické analýzy textu. Uvádí podrobný popis logického utřídění syntakticko-sémantických klasifikací a na příkladech ukazuje vlastní numerický kód, který umožňuje rychlé automatické zpracování.

Sborník uzavírá stať L. I. Kolodjažné (Issledovanije svojstv odnogo iz algoritmov avtomatičeskoj klassifikacii, s. 171—190), která se zabývá speciálními teoretickými aspekty automatického pořizování tezaurů.

Recenzovaný sborník tedy — na rozdíl od svazků, které v jeho volné ediční řadě předcházely — oživuje zájmový okruh kvantitativní lingvistiky na poli tvorby a ověřování nových matematických modelů a vedle toho přináší i zajímavé doplnění již propracované problematiky o nová fakta.

Nejnovější z řady sborníků vydávaných v redakci R. G. Piotrovského vyšel pod tradičním názvem Statistika reči i avtomatičeskij analiz teksta (Nauka, Leningrad 1980, 221 s.). Týká se tří tematických okruhů: problematiky formálního rozpoznávání významu slov v textu, metodologických problémů statistických výzkumů v lingvistice a problémů automatické analýzy textu.

První okruh je zastoupen pouze jedním, zato obsáhlým článkem kolektivu autorů v čele s hlavním redaktorem sborníku R. G. Piotrovským (Formaľnoje raspoznavanije smysla teksta, s. 5—51). Metodika formálního určování významu se tu důsledně opírá o logické základy a o zkušenosti z novějších sémantických teorií. Cílem podrobně rozpracovaného algoritmu je umožnit jednoznačnou sémantickou klasifikaci lexémů pomocí čísel dvojkové soustavy. V sémantické struktuře — od elementárních denotátů přes tzv. významové oblasti (rajóny) po obecnou předmětovou oblast — se určuje celá škála sémantických rysů, pomocí nichž se pak provádí vlastní klasifikace. Např. substantiva se dělí na první úrovni u konkrétních na diskrétní a nediskrétní, u nekonkrétních na proces a „neproces“ atd. V takto konstruovaném určení se pak na každém „uzlu“ (odpovídajícím úrovni) přiřazuje cílovému lexému buď 0, nebo 1 (např. řetězci rysů konkrétní — diskrétní — těleso — neartefakt — živé odpovídá posloupnost číslic 11101, číslicová kombinace 000 00 1100 vymezuje kategorii nevýrobní podnik atp.). Podobné podrobné rozpracování je připraveno také pro adjektiva, slovesa a ustálené předložkové vazby. Jednotlivé sémantické rysy a jim odpovídající rozhodovací uzly tak tvoří strukturu algebraického grafu, zachovávajícího jednoznačnost jak koncových bodů, tak cest, které k nim vedou. To má podle autorů význam pro zdokonalení rozlišovací schopnosti strojového překladu.

Druhý okruh sborníku, věnovaný statistickému zkoumání jazyka, zahajuje obecná stať J. A. Šubika (Statističeskije metody v lingvistike, s. 52—63). Připomíná přínos některých méně známých knižních publikací (Zinder - Strojeva, Admoni, Golovin aj.) a zdůrazňuje nutnost zásadního metodologického propojení přístupu kvantitativně-kvalitativního s pravděpodobnostně-statistickým. Z tohoto pohledu autor upozorňuje na známý fakt, že při výběru textů je značně relevantní jejich obsah (tematika) a že při zobecňování závěrů nelze nikdy opomíjet požadavek striktní homogennosti materiálu. V několika dalších úvahách se dotýká i některých otázek charakteristik stylu (i autorského) a různých pohledů na jejich vymezení.

O tom, jak se projevují obecné zákonitosti v nehomogenních textech pak podrobně referují N. A. Kozincevová a A. G. Kozincev (O vyjavlenii obščich zakonomernostej v raznorodnych tekstach, s. 64—71). Teoretické úvahy jsou sice provázeny jen příklady z arménštiny, nelze jim však upřít obecný dosah. Autoři např. uvádějí velmi užitečnou variantu statistického testování shody pořadí (test Friedmanův a Pageův), tedy metodu k posouzení velmi častého typu lingvistických dat. Upozorňují na [61]uvážlivé zacházení s frekvenčními daty, na neoprávněnost obecného sčítání frekvencí získaných z textů různých délek apod. Za velmi důležité naopak považují rozpoznávání a kvantitativní zachycení objektivních statistických trendů.

Statistickou homogenitou na rovině syntaktické se zabývá ve svém příspěvku A. V. Groševová (Statističeskaja odnorodnosť tekstov na sintaksičeskom urovne, s. 72—98). Zde — na rozdíl od předchozích článků — je analýza dosavadních přístupů k této problematice omezena menším zájmem lingvistů o statistiku syntaktických jevů. Ani autorčin metodologický přínos však není převratný: za relevantní charakteristiku se bere délka věty (jednak souvětí — „ceľnoje predloženije“, jednak predikační jednotky — „elementarnoje predloženije“). Vlastní kvantitativní výsledky jsou ovšem velmi početné: autorka zkoumala výběry o počtu 200 predikačních jednotek z latinských děl pěti antických autorů a v řadě kvantitativních statistických šetření (porovnávání rozložení délky věty v různých výběrech a textech) zjišťovala shody a rozdílnosti mezi zkoumanými texty i autory z klasického období latinské literatury. Z hlediska délky věty se např. jako velmi homogenní jeví díla Liviova a Tacitova, nikoli však Caesarova; v rozložení délky věty jsou některé texty Tacitovy a Caesarovy navzájem velmi blízké atd.

Následující článek L. V. Malachovského (Principy častotnoj stratifikacii slovarnogo sostava jazyka, s. 99—105) na několika příkladech a jejich rozboru ukazuje, že přístupy k praktickému členění slovníku podle frekvence slov jsou velmi nejednotné. Navrhuje proto, aby členění, které má praktický i lingvistický význam, vycházelo z obecných, objektivně vždy přítomných faktorů, jako např. z relativní frekvence (ne z pořadí). Pro vlastní členění pak vidí jako nejvhodnější užití logaritmického principu. Přestože je i toto členění mechanické (bez lingvistického smyslu), má zřetelnou výhodu v tom, že i nejrozsáhlejší frekvenční slovníky rozčleňuje do přehledného počtu maximálně šesti frekvenčních tříd (Těšitelová, 1977, s. 55—60).

Třetí okruh sborníku, věnovaný automatické analýze textu, se skládá ze dvou obsáhlejších článků. E. M. Luk’janovová shrnuje obecné úvahy o tzv. informační bázi automatických slovníků (Informacionnaja baza avtomatičeskich slovarej, s. 106—144). V obsáhlé stati, založené na zkušenostech z počítačového principu „databanky“, je nejpodnětnější oddíl, v němž autorka předkládá rozbor struktury tzv. automatického slovníku (slovníku získávaného automaticky pomocí počítače). Šíře jejího záběru nenechává stranou ani problematiku automatické lemmatizace. Konstrukce vlastního algoritmu — při požadavku minimalizace objemu informační báze — předpokládá tzv. spolehlivé určení a zakódování několika typů informací: gramatické, lexikálně-gramatické, sémantické a tezaurové.

Poslední článek sborníku je druhým příspěvkem L. V. Malachovského, který se podrobně zabývá homonymií v současné angličtině (Strukturnyje i kvantitativnyje charakteristiki omonimičeskich rjadov v sovremennom anglijskom jazyke, s. 145 až 212). Pro praktické účely definuje tzv. homonymní řady (množiny homonym), homogrupy (pravá homonyma) a homokomplety (morfologická homonyma) (Těšitelová, 1966) a uvádí několik zajímavých kvantitativních údajů, např. kolísání v odhadu počtu homonym v angličtině (mezi 1800 až 5096) i historický přehled zpracování této problematiky, která byla zkoumána i u nás (např. Trnka, 1931). Cílem rozsáhlé studie je vypracovat algoritmus pro vyhledávání a třídění anglických homonym a jejich kvantitativní zpracování. Praktická aplikace obsáhla celkem 1096 případů, které posloužily pro získání mnoha nových, dosud nepublikovaných kvantitativních charakteristik anglické homonymie, např. rozdělení typů homonym (lexikálních, gramatických, smíšených), rozdělení strukturních typů (podle konverzí mezi slovními druhy), rozdělení délky homonymního slova, rozdělení různých skupin homonym podle frekvencí apod.

Přestože tedy ani druhý recenzovaný sborník nepřináší nějak podstatné rozšíření metodiky kvantitativní lingvistiky, význam obou těchto publikací je nesporný. Tkví [62]v hloubce a v podrobnosti rozpracování pohledu na aktuální problémy oboru a ve schopnosti autorů řešit zdánlivě detailní otázky s vědomím širokého kontextu soudobé kvantitativní lingvistiky.

 

LITERATURA

 

KRÁLÍK, J.: O minském sborníku „Statistika teksta“. SaS, 32, 1971, s. 378—380.

KRÁLÍK, J.: Další sovětský sborník kvantitativní lingvistiky. SaS, 34, 1973, s. 187—189.

MANDELBROT, B.: Structure formelle des textes et communication. Word, 10, 1954, s. 1—27.

SPANG-HANSSEN, H.: The study of gaps between repetitions. In: For Roman Jakobson. The Hague 1956, s. 492—592.

TĚŠITELOVÁ, M.: Na okraj nových frekvenčních slovníků. SaS, 26, 1965, s. 267—275.

TĚŠITELOVÁ, M.: O morfologické homonymii v češtině. Rozpravy ČSAV, 76. Praha 1966.

TĚŠITELOVÁ, M.: O básnickém jazyce z hlediska statistického. SaS, 29, 1968, s. 362—368.

TĚŠITELOVÁ, M.: Kvantitativní rozbor současných jazyků, zvl. americké angličtiny. SaS, 30, 1969, s. 187—191.

TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Lingvistické příručky FFUK. Praha 1977.

TRNKA, B.: O homonymii, její therapii a profylaxi. ČMF, 17, 1931, s. 141—147.

Slovo a slovesnost, volume 43 (1982), number 1, pp. 58-62

Previous Josef Štěpán: Kniha o statistických metodách v české gramatice

Next Eva Buráňová: Sovětská práce o strojovém překladu