en cz

Práca o štatistike českého lexika

Ján Horecký

[Rozhledy]

Работа о статистике чешской лексики / Un travail concernant la statistique du lexique tchèque

V monografii M. Těšitelovej venovanej základným otázkam lexikálnej štatistiky[1] možno vidieť dve základné zložky: sú tu jednak úvahy (a riešenia) o teoretických [46]otázkach lexikálnej štatistiky, jednak konkrétny rozbor výskytu jednotlivých slovných druhov vo vybraných textoch.

Hlavná váha monografie je práve v tejto druhej časti, ktorej je venovaná IV. kap. s názvom Statistická analýza jednotek (slov a lexémů) z hlediska slovnědruhového. Rozbor výskytu slovných druhov znamená aj vo svetovom meradle ojedinelý pokus odpútať sa od bežného rozlišovania plnovýznamových a pomocných slov a využiť klasicky poňaté slovné druhy ako východisko pre štatistickú charakteristiku umeleckého a odborného štýlu vyspelého jazyka, ako je spisovná čeština.

Pravda, obidva tieto štýly sú v monografii M. Těšitelovej reprezentované v podstate len šiestimi autormi. Pre umelecký štýl je to Vl. Vančura, Konec starých časů, J. Mařánek, Barbar Vok a J. Marek, Vesnice pod zemí; odborný štýl predstavujú K. Chochola, Spalovací motory, Z. Nejedlý, Dějiny národa českého a O. Chlup, Pedagogika. Údaje získané z týchto textov sa niekedy (ako autorka hovorí, podľa potreby, ale kedy nastáva takáto potreba, nie je z výkladov dosť jasné) konfrontujú s údajmi z ďalších 3 + 3 textov. Ťažko povedať, či sú vybrané texty skutočne reprezentatívne pre dnešnú češtinu. Porovnanie s Frekvenčným slovníkom češtiny,[2] ktoré M. Těšitelová sústavne uvádza, by svedčilo o správnosti výberu; nemožno však zabúdať, že Frekvenčný slovník češtiny predstavuje dnes predsa len už mierne zastarávajúcu lexiku češtiny.

Údaje excerpované z uvedených diel sú spracované predovšetkým v značnom počte tabuliek a grafov, no dôležitý je aj komentár k nim, v ktorom autorka približne na 100 stránkach hutným štýlom analyzuje jednotlivé slovné druhy, ich využitie a ich vplyv na štylistickú charakteristiku vybraných diel. Zo skúmania vylučuje číslovky, častice a citoslovcia, ostatné slovné druhy člení na substantívne a verbálne, pričom k substantívnym zahrnuje substantíva, adjektíva a predložky, kým k verbálnym slovesá, zámená, adverbiá a spojky. Zdá se, že pričlenenie zámen k slovesám nie je dosť odôvodnené, ale vcelku takéto členenie vyhovuje najmä z hľadiska štylistického využitia. — Pri analýze jednotlivých slovných druhov používa autorka jednotnú schému: skúma jednak frekvenciu slov, slová s poradím 1.—10., resp. 11.—100., slová s frekvenciou 10—1, jednak počet rôznych slov, a to rôzne slová s frekvenciou 1, s frekvenciou 1—10 i s frekvenciou 11 a vyššou. Osobitne skúma tzv. sémantickú kvantifikáciu, prakticky údaje o tom, koľko významov majú skúmané slová zaradené do poradia. Pretože pritom ide o počet významov uvádzaných v slovníkoch, ostáva úsilie o sémantickú kvantifikáciu iba pokusom o istý nový pohľad. Chýbajú totiž presné kritériá pre určovanie významov a ich počtu. Podľa našej mienky pre charakteristiku textov nie je dôležitý počet významov uvádzaný v slovníkoch, ale skôr počet významov vyskytujúcich sa v skúmaných textoch.

Uvedená jednotná schéma, prirodzene, nemá pri všetkých slovných druhoch rovnaké naplnenie. Ale jej nespornou výhodou je, že umožňuje upozorňovať na charakteristické vlastnosti slovných druhov, najmä z hľadiska skúmaných štýlov. Autorka zistené údaje skutočne hojne využíva (najvýraznejšie sú rozdiely medzi využitím slovesa a substantíva), konfrontuje ich aj s príslušnými údajmi Frekvenčného slovníka češtiny. Práve tieto pozorovania robia monografiu M. Těšitelovej neobyčajne záslužnou a v mnohých ohľadoch podnetnou.

I keď platí, že najväčšia váha monografie je práve v tejto lexikálnej analýze konkrétnych textov, predsa treba zdôrazniť aj príspevok M. Těšitelovej k všeobecnej teórii lexikálnej štatistiky. Autorka v prvých troch kapitolách svojej práce kriticky rozoberá doteraz známe a v jazykovede používané štatistické metódy, spôsoby hodnotenia jazykových javov a vzorce.

Predovšetkým podrobne analyzuje problematiku náhodného výberu, poukazuje [47]na rozdiely založené na tom, či ide o náhodný výber stránok alebo slov textu, a podrobne vysvetľuje vlastný experiment so systematickým (mechanickým) výberom, pri ktorom sa excerpujú jednotky zo začiatku, prostriedku a konca textov. Ďalej venuje pozornosť vymedzeniu slova (dôležitému najmä v jazykoch, ktoré majú aj analytické slovné tvary) a základnému rozdielu medzi slovom (lexémou) a slovným tvarom, tada rozdielu, ktorý sa bežne vyjadruje aj symbolmi V a N. Škoda, že sa tu nedotýka aj ďalšieho málo pertraktovaného problému, totiž faktu, že aj slovné tvary môžu byť v texte rovnaké a rozdielne. Bolo by azda zaujímavé zisťovať nielen absolútny počet slovných tvarov, ale aj to, koľko je v danom texte jednotlivých slovných tvarov istého slova.

Presvedčivé sú výklady M. Těšitelovej o tom, že tzv. Zipfov zákon platí predovšetkým pre to pásmo frekvenčných zoznamov, kde sa poradie približne kryje s rangom. Treba súhlasiť so záverom, že poradie sa nemôže kryť s rangom, lebo slová s rovnakým rangom nevyhnutne musia byť označené viacerými poradovými číslami, ak ich je viacej. Nezdá sa nám však dosť zreteľný názov (a pojem) frekvenčná rovina slova, ktorý autorka navrhuje (s. 82) namiesto Zipfovej konštanty, pričom túto rovinu vymedzuje ako funkciu rangu a frekvencie. Takisto sa nezdá dosť jasný ani termín (a pojem) frekvenčný blok, t.j. skupina slov, ktoré sa vyznačujú relatívnou stálosťou vzťahu rangu a poradia. Zdá sa, že aj sama autorka si uvedomuje nedostatočné vymedzenie týchto dvoch pojmov, lebo s nimi pomerne málo pracuje v štvrtej kapitole, pri rozbore konkrétnych textov.

Pokiaľ ide o Zipfov zákon, autorka správne upozorňuje na málokedy konštatovaný fakt, že Zipf vo svojich úvahách vychádza nie z lexém, ale zo slovných tvarov. To má zrejme nevýhody pri skúmaní jazykov s bohatou morfológiou a značne skresľuje celkový pohľad. Netreba zdôrazňovať, že M. Těšitelová toto skreslenie napráva práve tým, že pri výskume slovných druhov berie sústavne do úvahy slová i slovné tvary.

Veľkú pozornosť venuje autorka aj rozboru Guiraudových vzorcov pre bohatstvo a koncentráciu slovníka. Dobre upozorňuje na okolnosť, že Guiraud vychádzal z predpokladu (ktorý zrejme neplatí pre jazyky s bohatou morfológiou), že pomocné slová tvoria 50 % podiel lexiky. Pre češtinu to zrejme neplatí a M. Těšitelová zisťuje, že pomocných slov je len 20, resp. 30 %. Preto sa v jej vzorci uplatňuje koeficient 80, resp. 70. Na rozdiel od Guirauda M. Těšitelová prichádza k záveru, že na osvetlenie štruktúry textu treba zaviesť aspoň tri charakteristiky. Je to predovšetkým rozsah textu, t.j. pomer slov a slovných tvarov (V a N), pravda, s ohľadom na spomenutý podiel pomocných slov; rozsahom slovníka sa vyjadruje opakovanie slov v texte. Ďalej to je rozptýlenie, t.j. vzťah slov (V) s frekvenciou od 1 do 10, a napokon koncentrácia, pri ktorej sa berie rovnaký vzťah, ale slovných tvarov (N). Treba pripomenúť, že označovať koncentráciu slovníka ako doplnok (komplement) k rozptýleniu nie je dosť šťastné.

Vcelku treba povedať, že monografia M. Těšitelovej o lexikálnej štatistike predstavuje konkrétny, dobre koncipovaný a podrobne realizovaný príspevok jazykovedca k poznaniu štatistických zákonitostí a spracovaniu štatistických charakteristík konkrétnych textov. Je to najmä preto, že autorkin prístup je predovšetkým lingvistický, nie čisto štatistický.

[1] M. Těšitelová, Otázky lexikální statistiky, Studie a práce lingvistické 9, Academia, Praha 1974, 289 s.

[2] J. Jelínek - J. V. Bečka - M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961.

Slovo a slovesnost, ročník 37 (1976), číslo 1, s. 45-47

Předchozí Jaroslav Kuchař: Slovenský pohled na sémantiku slovesa z hlediska jeho slovotvorných potencí

Následující Václava Holubová: Slovník homonym O. S. Achmanovové

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: