Časopis Slovo a slovesnost
en cz

Polská práce z lexikální statistiky

Ludmila Uhlířová

[Kronika]

(pdf)

Польская работа по лексической статистике / Un ouvrage polonnais sur la statistique lexicale

Monografie Jadwigy Samborové Badania statystyczne nad słownictwem (Varšava 1969, 164 s.) vyšla jako 12. sv. série Z dziejów form artystycznych w literaturze polskiej (tato série vychází od r. 1963). Tématem knihy — jak je již z titulu patrno — je struktura slovníku textu z hlediska statistického. Autorka užívá termínu statistická struktura slovníku a rozumí jím obecné kvantitativní zákonitosti slovníku textu, tj. takové zákonitosti, které se týkají přirozených jazyků vůbec, nezávisle na konkrétním jazyku, stylu, epoše atd. Nejedná se tedy výlučně o práci statisticko-stylistickou, i když, jak autorka uznává, stylistický aspekt zaujímá při každém zkoumání struktury slovníku důležité místo.

Cíl i charakter knihy dobře vystihuje autorka sama: „Jde o ověření jistého typu statistických závislostí v slovníku na polském materiále. Její hlavní novum je fakt, že jako přirozený jazyk projevující tyto závislosti je probírána polština. Problémy čistě teoreticko-statistické, jakkoli zajímavé, jsou pouze na okraji práce, která si v podstatě zachovává charakter empirické analýzy materiálu“ (s. 28). Je třeba ocenit, že empirická analýza je provedena velmi důkladně, pečlivě a všestranně. Rovněž z hlediska matematických předpokladů a matematického rámce je práce velmi dobře založena. Autorka je vzděláním matematička i lingvistka.

Z celkového počtu sedmi kapitol jsou tři (rozsahem kratší) kapitoly úvodní a pomocné a čtyři kapitoly ústřední.

Obsahem 1. kap. je informace o lingvistických a „technických“ předpokladech analýzy. Autorka pracovala na základě vlastního materiálu, Mickiewiczova Pana Tadeáše o rozsahu 64 510 slov (tj. délka textu N; rozsah slovníku tohoto textu V je 9 250 hesel) a srovnávacího řeckého materiálu, převzatého z knihy R. Morgenthalera Statistik des Neutestamentlichen Wortschatzes (Zürich 1958). Jde tedy o porovnání materiálu z jazykově i stylově velmi odlehlých oblastí.

Kap. 2 je věnována výkladům o tom, do jaké míry jsou lingvistické zákonitosti povahy statistické a jak chápat pojem statistického zákona v lingvistice. Protože jde především o přehledné shrnutí názorů různých badatelů (jsou citovány názory Doroszewského, Frumkinové, Guirauda, Mandelbrota, Skalmowského, Woronczaka a Zipfa), domnívám se, že měly být podrobněji vyloženy i názory Herdanovy.[1] O místu statistiky ve funkční lingvistice se autorka bohužel zmiňuje pouze jedinou větou (na s. 19). Za důležité je třeba považovat to, co autorka uvádí spíše jen na okraj svých výkladů (na s. 16), že totiž při zkoumání výskytu jazykových jevů je třeba vzít v úvahu dva momenty, jednak moment „gramatičnosti“ (spíše bychom řekli moment systémový), jednak moment mimogramatických „podmínek užívání“ jazykových jevů (výskytu v textech).

V kap. 3 autorka informuje o stavu bá[284]dání ve světové i polské statistické lingvistice. Ve stručném přehledu se uvádějí hlavní práce, které se přímo týkají tématu knihy.

Kap. 4—7 jsou jádrem knihy. Probírá se v nich rozložení slov podle frekvence: rozložení slov o vysokých frekvencích (kap. 4), rozložení slov o nízkých frekvencích (kap. 5) a vztah mezi délkou textu a slovníkem (kap. 6—7). V těchto kapitolách je průběžně uvedeno 42 grafů, na konci knihy je pak připojeno 40 tabulek.

V kap. 4 je velmi obšírně vyložen Zipfův zákon — jeho historie, diskuse kolem jeho empirické adekvátnosti a navrhované opravné parametry (zejm. Mandelbrotův parametr B a Woronczakova úprava).[2] Autorka provedla podrobnou empirickou analýzu vztahu pořadí a frekvence v polském materiálu a porovnala výsledky s řeckým materiálem, dále vypočítala míru pokrytí textu a slovníku nejfrekventovanějšími slovy (Lorenzův koeficient).

Zvláštní pozornosti v této kap. zaslouží polemika s Herdanovým kritickým odsouzením Zipfova zákona (G. Herdan, jak známo, nepovažuje tzv. Zipfův zákon ani za zákon lingvistický, ani za zákon matematický). S některými argumenty Herdanovými autorka souhlasí, zejm. s faktem, že pořadí r je nelingvistická proměnná a že závislost f.r = k je ovlivňována délkou textu, avšak namítá: „Nepochybně má Herdan pravdu, když mluví o nelingvistické proměnné r, avšak Zipfův zákon vyjadřuje nejen nepřímý poměr mezi proměnnými r a k, ale spíše lineární závislost mezi jejich logaritmy, a to není totéž“ (s. 39). Tuto námitku by bylo třeba mnohem podrobněji rozvést; tak, jak byla napsána, zůstává čtenáři nejasná.

Při výkladech o Mandelbrotově parametru B učinila autorka poměrně rozsáhlé a zajímavé typologické šetření. Pokusila se o využití Mandelbrotova parametru B pro lexikální typologii jazyků. Zjistila na základě materiálu ze čtyř frekvenčních slovníků,[3] že slovanské jazyky (čeština a ruština) mají totožný parametr B, což lze interpretovat tak, že statistické zákonitosti slovníků obou jazyků jsou shodné (rozdíly jsou způsobeny pouze odlišným rozsahem frekvenčních slovníků — jak známo, parametr B je závislý na délce textu); naproti tomu se však výrazně liší parametr B slovanských jazyků od parametru B obou románských jazyků (a navíc mezi oběma románskými jazyky jsou vzájemné rozdíly v hodnotách B větší než mezi oběma slovanskými jazyky), což lze interpretovat tak, že slovanské a románské jazyky se statistickými zákonitostmi slovníku významně liší. Domnívám se, že by bylo užitečné otestovat zjištěné shody a rozdíly vhodným statistickým testem.

Kap. 5 je věnována tzv. slovům řídkým. Za kritérium řídkého slova považuje autorka četnost f < 10. Taková slova tvoří kolem 90 % slovníku textu, z čehož slova s frekvencí menší než 3 tvoří kolem 80 % slovníku (podíl těchto slov je však závislý na délce textu). Pomocí řady statistických zjištění autorka dokládá, že výskyt slov o nízkých četnostech se řídí zcela jinými statistickými zákonitostmi než výskyt slov o vysokých četnostech. Proto je důležité, že se pokusila hranici mezi oběma skupinami slov empiricky stanovit. Shodu empirického rozložení slov řídkých s teoretickým rozložením Poissonovým testuje autorka pomocí textu χ2, a to dvěma způsoby: protože neznáme „počet slov s frekvencí nula“, tj. počet slov, která se v textu nevyskytla, užívá jednak tzv. „useknutého“ rozložení, tj. v tabulkách Poissonova rozložení vynechává hodnotu [285]x = 0, přičemž celková suma pravděpodobností zůstává rovna jedné, jednak tzv. „přesunutého“ rozložení, tj. místo fi pracuje s hodnotami fi — 1. Výsledky testu ukázaly ve všech případech významné odchylky teoretického a empirického rozložení. Autorka zamítá Yulem vyslovenou a téměř všeobecně přijímanou hypotézu, že rozložení řídkých slov v textu se řídí Poissonovým rozložením. Poukazuje však naproti tomu v souhlase se Sommersem a Herdanem[4] na možnost aproximovat rozložení řídkých slov rozložením lognormálním. Shodu empirického a teoretického rozložení ověřuje graficky a zdůrazňuje, že shoda platí nezávisle na délce textu. Zároveň však upozorňuje na to, že lognormální rozložení je spojité, zatímco empirické rozložení slov o nízkých četnostech je diskrétní, takže z hlediska statistického chybí dostatečná základna pro srovnávání.

V kap. 6 vychází autorka z Herdanova poměru type/token a zkoumá vztah mezi rozsahem slovníku (sumou typů) a délkou textu (sumou token) tak, že porovnává poměr type/token v různých oddílech textu (např. v jednotlivých kapitolách Pana Tadeáše) i při narůstání délky textu. Konstatuje, že tempo přírůstku nových slov s délkou textu pozvolna klesá.

Poslední kap. je shrnutím i ověřením závěrů vyslovených v předcházejících kapitolách. Autorka ověřuje na polském i řeckém materiále deset nejznámějších parametrů frekvenčního rozložení slov v textu. Jsou to tyto parametry: průměr, směrodatná odchylka, variační koeficient, entropie, redundance, Lorenzův koeficient, Goodovy míry různorodosti, Kuraszkewiczův koeficient bohatství slovníku a Guiraudův koeficient bohatství slovníku. Ty tvoří ve svém souhrnu jistý popis statistické struktury slovníku textu. Patrně poprvé jsou všechny tyto parametry vypočítány pro jeden a týž materiál. Všechny shodně ukazují na větší bohatství slovníku v textu Pana Tadeáše v porovnání s řeckým textem Nového zákona (což je ovšem i empiricky jasné).

Knížka J. Samborové znamená bezesporu obohacení literatury z lexikální statistiky. Kromě toho, co již bylo zdůrazněno a co bylo vlastním smyslem práce, že totiž poprvé byly všechny nejdůležitější statistické charakteristiky slovníku ověřeny jednotně na témže materiálu, čímž je dána cenná možnost jejich kritického porovnání, dospěla autorka k řadě empirických i teoretických poznatků, které mají mnohem obecnější význam, než je ten, že jsou charakteristikou zkoumaných textů. Např. empiricky ověřila hranici slov řídkých;[5] dále soustavně sledovala závislost parametrů na délce textu a zdůraznila tak důležitost tohoto parametru v lexikální statistice; kriticky zrevidovala předpoklad o Poissonově rozložení slov s malými četnostmi a navrhla možnost použití lognormálního rozložení. Čtenář získá též dobrý přehled o stavu polské kvantitativní lingvistiky. Bibliografický přehled prací ze světové kvantitativní lingvistiky je soustředěn spíše na starší klasické práce než na práce nejnovější; z důležitých autorů chybí např. Ch. Muller (zmínka o něm je na s. 8, v bibliografii však uveden není).[6]

Jakožto první a zatím jediná v Polsku knižně vydaná monografie z lexikální statistiky reprezentuje kniha J. Samborové tento obor velmi dobře. Na některých místech bychom snad očekávali od autorky více odvahy při celkové lingvistické interpretaci a generalizaci statistických dat.


[1] Srov. již G. Herdan, Type-token mathematics, the Hague 1960, i práce pozdější, např. G. Herdan, Quantitative linguistics or generative grammar?, Linguistics 4, 1964, 56—65.

[2] J. Woronczak, Metody obliczania wskaźników bogactwa slownikowego tekstów, sb. Poetyka i matematyka, Varšava 1965, 145—163.

[3] A. Juilland - E. Chang-Rodriguez, Frequency dictionary of Spanish words, the Hague 1964; A. Juilland - P. M. Edwards - I. Juilland, Frequency dictionary of Roumanian words, the Hague 1965; J. Jelínek - J. V. Bečka - M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961; E. A. Šteinfeľdtová, Russian word count, Moskva 1965.

[4] H. H. Somers, Analyse mathématique du langage. Lois générale et mesure statistiques, Louvain 1959; G. Herdan, cit. Type-token mathematics, 1960.

[5] Výsledky, k nimž dospěla, jsou ve shodě s výzkumy M. Těšitelové On the so-called Vocabulary Richness, Prague Studies in Mathematical Linguistics 3, v tisku.

[6] Ch. Muller, Étude de statistique lexicale, l’Illusion comique de P. Corneille, Paris 1964, 204 s.; Ch. Muller, Étude de statistique lexicale, Le vocabulaire du théatre de Corneille, Paris 1967, 380 s.; Ch. Muller, Initiation à la statistique linguistique, Paris 1968, 248 s., srov. zde s. 261.

Slovo a slovesnost, ročník 31 (1970), číslo 3, s. 283-285

Předchozí Jiří Krámský: K transformační analýze určitého členu

Následující Josef Vachek: Moskevská typologická konference