Časopis Slovo a slovesnost
en cz

Další sovětský sborník kvantitativní lingvistiky

Jan Králík

[Kronika]

(pdf)

Дальнейший советский сборник квантитативной лингвистики / Un autre recueil soviétique consacré à la linguistique quantitative

Sborník Statistika reči i avtomatičeskij analiz teksta (Izdatel’stvo „Nauka“, Leningrad 1971, 464 s.) navazuje tematikou i okruhem svých autorů na minské sborníky Statistika teksta.[1] Redaktorem sborníku je opět R. G. Piotrovskij; jednotlivé práce rozdělil do dvou oddílů: první je věnován statistické struktuře textu, druhý jeho automatickému zpracování. Všimneme si blíže článků, které nepřinášejí pouhé frekvenční seznamy, ale zabývají se některými teoretickými problémy kvantitativní lingvistiky.

Autoři prvního článku (s. 5—46), R. G. Piotrovskij a L. A. Turygina se po úvodní studii na téma antinomie jazyk-řeč (s. 5—15) zabývají problematikou tzv. normovanosti textu, jíž rozumějí stálost rozložení pravděpodobností užití slovních tvarů. Vycházejí z tvrzení, že typ statistického rozložení jazykových jednotek nelze určit, a proto přímo porovnávají četnosti daných slovních tvarů v různých výběrech (z anglických publicistických textů vybráno 20krát 5000 slov). Při platnosti nulové hypotézy, že odchylky mezi rozloženími četností výskytů slovních tvarů jsou pouze nahodilé, se tvrdí, že stavba textu je podmíněna normou. Nenáhodnost se považuje za výsledek působení blíže nespecifikovaných jazykových faktorů. Wilcoxonovo kritérium ukazuje, že s jedinou výjimkou platí nulová hypotéza, tj. že se rozložení četností výskytů slovních tvarů řídí pevnými zákony, a proto lze mluvit o normovanosti textu. Dále se sleduje nezávislost (resp. podmíněnost) užití některých kombinací frekventovaných slovních tvarů a frekvence některých gramatických kategorií u sloves. Článek je doplněn četnými tabulkami frekvencí nejčastějších substantiv, adjektiv, zájmen, číslovek, sloves, adverbií, spojek, předložek a členů.

Druhý nejrozsáhlejší článek sborníku (s. 47 až 112), autorů K. B. Bektajeva a K. F. Luk’janenkova, klade si dva základní úkoly, [188]lingvistickostatistický a lexikologický. Autoři se soustřeďují na první z nich a určují univerzální schéma pro budování pravděpodobnostně statistických modelů rozložení jazykových jednotek; na základě porovnání empirických rozložení s teoretickými docházejí i k řešení úlohy lexikologické (srov. dále). Model je budován pro dvě základní jednotky, jednak pro tvar slova (slovoformu), chápaný pouze formálně, tj. graficky, jednak pro trojslovní spojení (triádu), jehož jádra se (na různých pozicích) volí z různých aspektů (např. jako terminologická substantiva, adjektiva ap.); členem triády může být i interpunkční znaménko. Vzorce, číslice a zkratky se považují za slova umělých jazyků, označují se písmeny z a x a zachází se s nimi jako s běžnými jednotkami. Základní přístup spočívá v tom, že se hledá typ rozložení výskytů dané jednotky na množině stejně dlouhých úseků textu, resp. po třídním rozkladu množiny frekvencí — rozložení počtu stejně dlouhých úseků na množině frekvencí. Empirické hodnoty se porovnávají s rozložením normálním, logaritmicko-normálním a Poissonovým. Naznačený algoritmus je doplněn blokovým schématem programu pro samočinný počítač. Model se ověřuje na anglickém materiálu (80 vědeckotechnických textů z oboru plavebních mechanismů, každý o 5000 slovech). Výběry jsou tzv. úseky (vnitřní výběr, série) o délce K slov (K = 1000, 2000, 3000, 4000, 16 000), z nichž se ve 27 různých variantách sestavuje celkový korpus (400 000 slov). Sleduje se Fi — absolutní frekvence daného jevu (slovního tvaru, resp. triády) v úseku o délce K, a mFi' — počet úseků, v nichž má daný jev touž frekvenci (absolutní četnost frekvenční třídy Fi'). Počítač vypracovává pro všechny slovní tvary v jednotlivých textech přehled distribuce Fi (tab. I, s. 64—66) i tabelované rozložení mFi' (tab. II, s. 67—69). Výsledky porovnání empirického a teoretického rozložení neparametrickým testem χ2 (odpadá série K = 16 000) jsou uvedeny u frekvenčního seznamu (s. 82—88). Tabulka základních parametrů však připojena není.

Na základě výsledků zpracovaných počítačem docházejí autoři k tvrzení (nijak převratnému, ale přesto poprvé šířeji kvantitativně doloženému), že se rozložení výskytů slovních tvarů v textu řídí sledovanými zákony takto: výskyty slov, jejichž frekvenční pořadí je 1.—60. (nejfrekventovanější) se řídí normálním zákonem, slova s pořadím 60./90. až 250./300. jen zčásti normálním zákonem, v pořadí 250./300.—1500. a výše zákonem Poissonovým. U triád (malé frekvence) převládá Poissonovo rozložení. Tento závěr je doplněn přehledem shod a rozdílů mezi teoretickým a empirickým rozložením i pro jednotlivé slovní druhy.

Řešení lexikologické úlohy je v podstatě shrnuto do této hypotézy: Neshoda mezi empirickým a teoretickým rozložením ukazuje, že daná jazyková jednotka má v analyzovaném textu charakter termínu; shoda je příznakem neterminologičnosti. — Článek, který podává výsledky rozsáhlé a dlouhodobé práce, vychází z teorie soustředěné v minských sbornících (v. pozn. 1) a přináší její první ovoce.

Model pro rozložení délky slov v gruzínštině (s. 113—133), uváděný gruzínskými autory T. G. Gačečiladzem a T. P. Cilosanim, je zajímavou kombinací analýzy vzdáleností mezi výskyty obecných náhodných jevů a Fucksovy metody, a tedy kombinací dvou procesů, absolutně náhodného a deterministického. Autoři vycházejí z předpokladu, že rozložení délky slova se řídí Fucksovým modelem, jehož konkrétní mutaci popisuje tzv. epsilónové spektrum (systém koeficientů).

Autoři uvádějí několik modelů; první z nich popisuje rozdělení slabik v slovech jako výsledek procesu, který patří do třídy procesů složených. Jde o Fucksovo rozložení, kterému odpovídá spektrum {ε1 = 1, ε2 = ε3 = … = 0}; střední délka slova v slabikách i = 2,542 (pro gruzínštinu[2]).

Druhý model popisuje rozložení hlásek v slabice. I v tomto případě jde o proces složený (je kombinací procesu náhodného a deterministického). Jeho dobré přiblížení poskytnou už první tři členy epsilónového spektra, které lze určit např. metodou momentů; {ε1 = 1, ε2 = 0,836, ε3 = 0,204, ε4 = ε5 = … = 0}. Takováto struktura tvoření slov ukazuje, že slabiky v gruzínštině — z hlediska jejich tvoření z hlásek — se rozdělují do tří skupin, na slabiky jednohláskové, slabiky alespoň dvojhláskové a slabiky alespoň trojhláskové. Analogický model, který se zabývá rozdělením písmen v slovech, je doplněn několika tabulkami [189]pro celou gruzínskou abecedu. — V závěru jsou připojeny dvě krátké zprávy o studiu statistické vazby mezi výskyty substantiva a slovesa a výskyty různých větných členů.

Článek P. B. Nevel’ského a M. D. Rozenbauma (s. 134—148) spadá do oboru informatiky. Autoři vycházejí z předpokladu, že žádný informant nemůže ideálně v plném smyslu slova podat informaci o obsahu díla jemu neznámého. Týž text může pro čtenáře obsahovat různé množství informace v závislosti na ovládání jazyka, na jeho zkušenostech i na celé řadě faktorů psychických. V rámci výzkumu, jehož cílem je experimentální prozkoumání možnosti přiblížit „hádání“ ideálnímu předvídání a oddělit informaci uloženou v textu od běžného šumu, provedli autoři dva experimenty. První vycházel ze subjektivního odhadu entropie a redundance zvláštního odborného textu. Vedle informačního měření textu se autoři pokusili o informační měření neznámého textu v poměru k textu známému. K experimentu zvolili text z finanční dokumentace jednoho z dolů doněcké oblasti (šlo o 1100 písmen z nadpisů tabulkových kolonek, nikoli souvislé sdělení, ale o text se zkratkami a symboly, který by byl v běžné ruštině dvakrát až třikrát delší). Subjektivní entropie byla definována jako nespolehlivost hádání, jako míra neurčitosti, která v textu po hádání zůstane. Konečné množství informace, které může čtenář z textu vyčíst, je dáno rozdílem entropie textu a subjektivní entropie:

T(x,y) = H(x) — Hsub

Výsledky prvního experimentu jsou soustředěny do tabulek pravděpodobností správného uhodnutí jednotlivých písmen a doplněny přehledem entropie a redundance, kterou v textu určilo dvacet dotázaných osob.

Druhý experiment spočíval v tom, že informanti měli postupně hádat termíny bez kontextu. Brala se v úvahu paměť a schopnost člověka pochopit smysl textu v závislosti na tzv. subjektivní redundanci jako funkci objektivních znalostí člověka. Výsledky druhého experimentu jsou soustředěny do tabulky (s. 146), v níž se pro jednotlivé skupiny informantů uvádějí entropie připadající na písmena, entropie připadající na slovo, redundance a kontextová podmíněnost K∞.

Krátká stať V. P. Grigor’jeva (s. 149 až 159) se zabývá statistickým zkoumáním poezie. Analyzovaný text byl vybrán na základě hypotézy, že pro statistický výzkum je nejvhodnější text s maximálně rozvinutými vztahy vnitrotextovými a s minimálně rozvinutými vztahy vnětextovými. Autor považuje za ideální středověký text, zvláště folkloristický, jakým je např. středověká španělská romance. Z komplexu dosud nezkoumaných problémů se zaměřil na pozorování vzájemného vztahu sudých a lichých veršů v osmiveršové strofě; úplný cyklus romancí o Cidovi má 1315 veršů, 3103 různých slov a 13 736 slov celkem (jak lze zjistit jednoduchým výpočtem z ostatních údajů — nikoli tedy 13 636, jak je v čl. uvedeno). Rozbor provádí autor na základě frekvenčního slovníku vypracovaného počítačem Minsk 22. Dochází k závěru, že se v sudých verších vyskytuje více slov kratších (gramatická slova a slovesné tvary). Svůj význam tu má i rytmus, rým a postupné rozvíjení tématu. Sledují se i frekvence koncovek slov v závěru verše, slova a jejich pořádek v sudém verši, což závisí na slovech tvořících verš předcházející, tj. lichý. Potvrzuje se očekávání, že nejfrekventovanější slovesa (obecná) mají výrazně vyšší frekvence v sudých verších a substantiva ve verších lichých.

P. M. Aleksejev (s. 160—178) uvádí souborný přehled frekvenčních slovníků angličtiny od J. Knowlese (1904) a R. C. Eldridge (1911) přes slovníky E. L. Thorndikea (1921, 1927, 1931, 1938, 1944) po H. Kučeru a W. N. Francise (1967) a doplňuje jej soupisem ruských prací z oboru frekvence anglických slov.

Druhá část sborníku je věnována automatické analýze textu; přináší především rozsáhlý článek A. V. Zubova (s. 286—434), který se podrobně zabývá problematikou zpracování textu přirozeného jazyka v systému člověk-stroj: kódováním, přepisem a algoritmizací. Uvádí cenné zkušenosti a příklady z ruštiny a angličtiny, získané zejména při přípravných etapách strojového překladu. Práce je doplněna dvanácti blokovými schématy různých algoritmů pro automatické zpracování textu.

Přes značnou nestejnorodost článků je sborník dalším cenným příspěvkem do oblasti kvantitativní lingvistiky, opírající se dnes již o rozsáhlou literaturu. Podává souhrnný přehled výsledků prací časově a technicky náročných; mnohé z nich předznamenávají některé nové směry výzkumu kvantitativní lingvistiky.


[1] I. — 1969 a II. — 1970, srov. mou recenzi v SaS 32, 1971, 378—380.

[2] Fucksovo rozložení pro češtinu srov. M. Ludvíková, Quantitative Syllable Analyses of Words in Czech, PSML 3, 1970, 27—34.

Slovo a slovesnost, ročník 34 (1973), číslo 2, s. 187-189

Předchozí Iva Nebeská: Dvě nové práce ze sovětské psycholingvistiky

Následující Petr Sgall: N. Chomsky o postavení sémantiky