Časopis Slovo a slovesnost
en cz

K statistickému výzkumu slovní zásoby

Marie Těšitelová

[Articles]

(pdf)

О статистическом исследовании словарного состава / Examen statistique du vocabulaire

Jazyk jakožto systém dává možnost studovat jeho základní jednotky i z hlediska kvantitativního v několika plánech, fonematickém, grafematickém, morfematickém a lexikálním. Každá z uvedených jednotek je pak určována dvěma ukazateli, kvalitativním (vymezujícím jeho pojem a jeho znaky) a kvantitativním (udávajícím jeho četnost v příslušném plánu, eventuálně jeho kvantitativní poměr k plánům ostatním). Údaje kvantitativní lze zjišťovat na materiálu, na nějž jsou kladeny zvláštní požadavky, a to jak na jeho obsah, tak i na jeho rozsah. Pokud jde o plán lexikální, mají tu svou tradici zejména tzv. frekvenční seznamy slov, rozsahu menšího i většího (tzv. frekvenční slovníky). Na nich se v tomto článku pokusíme ukázat, jaký význam mají číselné údaje o plánu lexikálním a jaká problematika je s nimi spjata.

Frekvenční seznamy slov vznikaly převážně z potřeb praktických, a to jednak jako podklad pro sestavování co nejúspornějšího systému těsnopisného, jednak [172]jako pomůcka didaktická pro vyučování jazykům, především cizím.[1] Prostudujeme-li však tyto práce, ukáže se jasně, že většina jich má dosah daleko větší a že přispívají k řešení některých závažných lingvistických otázek, i speciálních. Doložíme to podle potřeby zejména na materiále českém.

Vypracování frekvenčního seznamu slov nebo frekvenčního slovníku předpokládá, aby jeho autoři řešili jednu ze základních a velmi svízelných otázek lingvistických, tj. co pokládat za slovo (jako nejmenší jednotku). Každý seznam udávající frekvenci slov je tedy praktickým přínosem pro vymezení pojmu slova. Je samozřejmé, že podle různých jazykových struktur přistupují různí autoři frekvenčních seznamů k řešení této otázky různě.[2] Protože je nezbytné, aby „slovo“ jako základní jednotka frekvenčního seznamu vyhovělo především měřítku kvantitativnímu, chápe se většinou jako jednotka grafická, nikoli významová.[3] Pokud jde např. o češtinu, je toto chápání možné jen v zásadě, neboť i v češtině si jazyková skutečnost přímo vynucuje, abychom v některých případech přihlíželi jak k lexikálnímu významu slov, tak i k jejich významu gramatickému.[4]

V praxi to např. znamená řešit otázku sousloví typu slunéčko sedmitečné, spřežky křížem krážem, homonym palička (zdrobnělina k palice a přechýlené substantivum k palič), složených tvarů slovesných typu byl bych býval zaspal, zvratných sloves typu zapsati se, zapsati si vedle zapsati apod. Zřetel k stránce významové vede co možná k samostatnému uvádění zmíněných případů, zřetel gramatický naopak nutí k spojování některých grafických jednotek pod jedno heslo (lexikální jednotku).

Při řešení těchto otázek nelze složitou skutečnost vždy plně postihnout, a to i vzhledem k tomu, že pracujeme s jednotkami, které měříme a na základě toho i srovnáváme. Frekvenční seznamy slov poskytují tedy z hlediska poměru slova k obecné struktuře jazyka dostatek materiálu ke studiu této otázky. Zvláštní místo tu má jednak problém slov ohebných a neohebných, jednak problém slov gramatických a slov plnovýznamových.

U jazyků, jako je čeština, je tzv. grafickou jednotkou někdy tvar slova (u slov ohebných), např. ruku, píšeme, dobrými apod., jindy základní podoba slova (vždy u slov neohebných), např. dobře, ale, na apod. Součet stejných jednotek udává pak frekvenci jednotlivého slova, které se do tzv. frekvenčního seznamu zařazuje v základní podobě jako tzv. zvláštní slovo, heslo, např. substantivum v nom. sg. (ruka), sloveso v infinitivě (psáti). To není vždy úkol snadný. Potíže tu např. vznikají při rozlišování pasíva složeného (byl vyvolán) a tzv. adjektiva stavového se sponou (byl nadšen) apod. U slov ohebných údaj o frekvenci je tedy třeba chápat jako součet tvarů, jehož jednotliví sčítanci mají svou specifickou hodnotu, jejich vzájemný kvantitativní poměr ukazuje pak užívání slova v novém světle.

[173]Z hlediska kvalitativního jsou všechna slova, roztřídíme-li je podle tradičního dělení na devět druhů, ev. s částicemi na deset, uspořádána v jedné rovině, z hlediska kvantitativního se nám však objevují v stupnici se zcela jiným poměrem. Slova formální (gramatická) jsou na prvních místech, neboť jsou většinou velmi častá (v češtině např. spojky, předložky, sloveso býti ve významu spony apod.), některá se však samostatně nevyskytují (např. v češtině sloveso býti v tzv. tvarech složených). Nově se třídí i tzv. slova plnovýznamová. Do popředí se dostávají zájmena, která mají do značné míry formální charakter (např. ukazovací zájmeno ten … a v něm odkazovací to, zájmeno který apod.). Nově se nám jeví i poměr substantiva a slovesa, zvláště ve vztahu k tematice kontextu, dále poměr substantiva a adjektiva, adjektiva a slovesa apod.[5]

Vedle přínosu k řešení otázky slova a poměru jednotlivých druhů slov přispívá frekvenční seznam zejména (1) k poznání lexikální stránky jazyka, (2) k řešení některých otázek stylistických. V neposlední řadě lze z těchto seznamů vytěžit i (3) cenné poznatky pro gramatiku, a to zejména pro morfologii.

 

I. Příspěvek frekvenčních seznamů k poznání lexikální stránky jazyka

Těžiště a také hodnota frekvenčních seznamů, resp. frekvenčních slovníků je právě v jejich přínosu k poznání lexikální stránky jazyka, tj. v tom, do jaké míry nezávisle na materiálu, na němž jsou založeny, obrážejí obecné zákonitosti lexika. Samozřejmě základními podmínkami pro to je rozsah a obsah materiálu.

Pokud jde o rozsah materiálu, o nějž se zjišťování frekvence slov opírá, byla tu donedávna snaha, aby byl co největší co do úplnosti jednotlivých excerpovaných děl (op. cit. v pozn. 2, 47—53), aby se tu mohl náležitě uplatnit tzv. zákon velkých čísel. Využívání nových matematických metod v jazykovědě, zejména počet pravděpodobnosti, dává možnost pracovat s materiálem omezeným, ale dostatečně reprezentativním.[6] I tak zde podle mého názoru rozsah materiálu při zjišťování frekvence slov zůstává otevřenou otázkou, neboť v lexiku se projevuje zejména u některých slov vysoká „citlivost“ na tematiku i na žánr jejich využití, takže vzniká problém, při jak velkém materiálu se tyto vlivy úplně, popř. do značné míry neutralizují. Zatím se zdá mimo jiné i tu nejvhodnějším řešením uvádění několika číselných koeficientů udávajících celkovou frekvenci slova i jeho frekvenci v jednotlivých žánrech a počet pramenů u obou údajů (srov. slovník cit. v pozn. 1). Jejich vzájemné sčítání a porovnávání může kvantitativní údaj o slově do značné míry zbavit závislosti na výchozím materiálu. K opatření dostatečně průkazného materiálu bude třeba hledat nové cesty nejen matematickými metodami, ale i strojovou mechanizací a automatizací, které nám dovolí shromáždit co možná rozsáhlý materiál a s velkým počtem údajů snadno zvládnutelných.[7]

S problematikou rozsahu materiálu, na jehož základě se sestavuje frekvenční seznam, těsně souvisí i otázka obsahu tohoto materiálu (op. cit. v pozn. 2, [174]30—43). Je to činitel zvlášť rozhodující o hodnotě frekvenčního seznamu. Ve snaze co nejvíce eliminovat vliv obsahu materiálu setkáváme se s dvěma tendencemi: 1. užívat pramenů co možná nejrozmanitějších, tj. s různou tematikou, 2. užívat co nejvíce pramenů z různých děl téhož autora, i když nejde speciálně o jeho slovník, popř. co nejvíce pramenů od několika autorů zabývajících se touž problematikou a užívajících týchž žánrů.[8] Obě tyto tendence mají samozřejmě své klady i nevýhody. Nevýhody druhé vidím zejména v tom, že představuje do značné míry jen individuální slovník jednoho autora, omezený okruh vyjadřované skutečnosti, ev. jen jistého žánru. Závěry z tohoto materiálu musí být nutně omezené, i když ani v prvním případě není jistá omezenost tematikou pramenů i růzností jejich autorů plně eliminována. To je samostatná problematika, ale zmiňuji se o ní proto, že ji musíme mít na zřeteli při hodnocení závěrů z materiálu frekvenčního seznamu vyvozovaných.

I z hlediska lexikálního projevuje se ve frekvenčním seznamu slov rozdíl mezi slovy tzv. gramatickými a slovy plnovýznamovými. Slova první skupiny jsou v češtině na obou výše uvedených činitelích (tj. na obsahu a rozsahu materiálu) závislá značně volně. I v nepříliš velkém materiálu dosahují zhruba své obvyklé frekvence bez zřetele na obsah materiálu. Jen pořadí některých (zejména prvních) je rozdílné, je totiž závislé např. na formě projevu, projev psaný se tu odlišuje od projevu mluveného, a někdy i na žánru.

Pro psaný projev je v češtině typická vysoká frekvence spojky a, slovesa býti a zájmena ten … (srov. český frekvenční slovník cit. v pozn. 1). Naproti tomu pro projev mluvený, který jsem z hlediska frekvence slov zkoumala na materiálu 6079 slov, získaném tabulací stenografického záznamu odborné diskuse, ukazuje se charakteristickou především vysoká frekvence ukazovacího zájmena ten …, dále sloveso býti a teprve spojka a. Toto zjištění potvrzuje i frekvence nejčastějších slov v dramatech, které zpracoval citovaný frekvenční slovník jazyka českého. Pokud jde o žánr, je pro styl odborný typická vysoká frekvence např. vztažného zájmena který.

Naproti tomu frekvence slov plnovýznamových je do značné míry závislá na obsahu a rozsahu materiálu, o nějž se frekvenční seznam opírá. Čím je rozsah materiálu větší, popř. reprezentativnější a jeho tematika rozmanitější, tím je tato závislost menší a tím má přirozeně hodnota číselných údajů obecnější platnost. Vzhledem k významové stránce jednotlivých druhů slov chovají se jednotlivá slova různě. Zvláštní postavení má např. v češtině substantivum a sloveso, vzhledem k nim pak i adjektivum a adverbium.

Např. na základě statistického zpracování lexika knihy K. Čapka „Život a dílo skladatele Foltýna“ (celkem 21.936 slov, z toho 4.178 slov různých, hesel) jsem zjistila, že mezi slovy uspořádanými podle frekvence se nejvýrazněji projevuje závislost na tématě u substantiv. Např. mezi 10 nejčastějšími substantivy jsou vedle jmen vlastních, tedy slov celkem zcela nahodilých, jako je Foltýn // Folten, Beda, Judita, Ládíček, Fatty apod., slova podmíněná obsahem díla (většinou nejčastější substantiva), např. umělec, hudba apod. Příčinu toho lze hledat jednak ve významové stránce substantiv, v jejich schopnosti rozlišit jméno obecné a vlastní, jednak v jejich funkci gramatické. Jako slovní druh tedy nejdiferencovaněji označují skutečnost a bývají vcelku frekventovanější než slovesa. I když v Čapkově Foltýnovi mají slovesa relativně větší frekvenci (21,82 %) než substantiva (20,89 %), uplatňují se i tu substantiva velmi výrazně.

Na adjektivech se tematika výchozího materiálu projevuje v míře daleko menší než na substantivech, např. z prvních 10 nejčastějších adjektiv v Čapkově Foltýnovi jsou jen dvě (hudební a umělecký), a nikoli nejčastější, poplatná tématu. Vysvětlení dává opět jednak vý[175]znamová stránka adjektiv (vlastností předmětů a jevů rozlišujeme méně než předmětů a jevů samých), jednak jejich vztah k substantivu ve větě.

Ještě méně než na adjektivu je tematika materiálu patrna na slovesu. Např. z 10 nejčastějších sloves je v cit. Čapkově Foltýnovi toliko jediné (hráti) výrazně závislé na tématě, z polovice jsou tu slovesa modální (např. moci, musiti, chtíti) a potom slovesa celkem „neutrální“ (např. věděti, říci). Tato problematika by si zasloužila zvláštního studia. Ani slovesa plnovýznamová neprojevují se tak výrazně jako substantiva, vyjadřující zvláště rozdíl mezi obecným a jedinečným, popř. jako příd. jména.

Ve vztahu k slovesu je třeba posuzovat frekvenci adverbií, jimiž se slovesný děj odstiňuje a zasazuje do nejrozmanitějších podmínek místních, časových apod. Na tématě jsou tedy závislá druhotně, jsou k němu prakticky indiferentní.

Podrobný rozbor těchto vztahů na základě číselném nově osvětluje především lexikální význam jednotlivých slov. Vzhledem k tomu, že závislost slova na tematice výchozího materiálu je zhruba nepřímo úměrná jejich frekvenci, ovšem s jistým omezením, podle druhu slova, dělí se frekvenční seznam celkem na tři vrstvy (pásma): 1. vrstva slov nejvíce frekventovaných, u nichž je závislost na tématě prakticky nulová (výrazně se tu projevují tzv. slova gramatická), 2. vrstva přechodná, v níž se závislost slov na tématě výrazněji neprojevuje, 3. vrstva slov s nejnižší frekvencí, u nichž je závislost na tématě zcela zřejmá (většina těchto slov se však ve frekvenčním seznamu zpravidla neuvádí). Zvláštní význam tu má zejména vrstva první a třetí. V první lze totiž hledat to, co můžeme označit v jazyce jako „tendenci jednotící“ (unifikující), v třetí vrstvě naopak „tendenci rozlišující“, v níž se zejména projevuje individuální styl autora (o tom viz dále). Vrstva střední, jejíž hranice nelze přesně vést, tvoří přechodné pásmo mezi vrstvami krajními, představuje vlastní jádro zkoumané slovní zásoby. Všechny tři vrstvy nám pak představují proporcionální poměr lexikální struktury, který může kolísat podle různých podmínek (druhu projevu, žánru apod.). Uplatnění zřetele k významu slov by tento obraz dokreslilo, nikoli ovšem, pokud jde o vzájemný vztah slov, nýbrž o poměr jednotlivých významů slov. V tam je vlastní přínos tzv. sémantických frekvenčních slovníků (srov. V. Fried, op. cit. v pozn. 3).

Ve vztahu k lexikálnímu významu jednotlivých druhů slov je třeba hodnotit i jejich (průměrné) opakování v textu (v cit. frekvenčním slovníku jazyka českého se mluví o „indexu opakování“), které je dáno podílem frekvence slov jistého druhu a počtu různých slov téhož druhu.[9] Pro češtinu se ukazuje, že počet různých slov (hesel) u jednotlivých druhů slov je nepřímo úměrný jejich frekvenci. Čím je menší výběr slov (např. u předložek a spojek), tím se opakují častěji, naopak čím je jejich výběr větší, tím mají menší frekvenci, např. substantiva, adjektiva, slovesa (srov. slovník cit. v pozn. 1). Jde samozřejmě o číslo pomyslné, zejména u slov plnovýznamových, ale může být ukazatelem při analýze textu např. z hlediska stylistického.

Při kvantitativní analýze lexikální struktury uplatňuje se vedle frekvence slov též jejich rozložení v textu, tzv. distribuce. Ukazuje, jak jsou slova seřazená podle frekvence rozložena, tj. kolik různých slov má frekvenci 1, 2 atd.[10]

Již před Yulem pokusil se o matematické vyjádření tohoto vztahu G. K. [176]Zipf.[11] Snažil se stanovit zákonitost distribuce slov v jazyce konstantou, vyjadřující poměr mezi frekvencí slova (frekvenčním koeficientem) a počtem slov majících tuto frekvenci. Je tu poměr nepřímý, neboť stoupá-li koeficient frekvence, klesá počet slov, která tuto frekvenci mají. Zipf to vyjádřil formulí k = a . b2 (kde a je počet slov o jisté frekvenci, b frekvenční koeficient). Nepřikládal jí však platnost obecnou, nýbrž omezoval ji na slova s frekvencí nepříliš vysokou, tedy zhruba na pásmo, které jsme si označili jako střední. B. Trnka tomuto Zipfovu zákonu vytýká, že nerespektuje rozsah kontextu, na němž frekvenční koeficient závisí, a různé jazykové struktury. Podle Zipfa lze tímto zákonem zjistit značný stupeň pravidelnosti v distribuci slov, která svědčí o tendenci v jazyce udržet rovnováhu mezi frekvencí slov a počtem slov různých.

V práci cit. v pozn. 2 pokusila jsem se ověřit tento zákon na českém materiále v rozmezí 21.950 slov a 109.061 slov. V obou případech se ukázalo, že tento zákon nejen neplatí o slovech s vysokou frekvencí, nýbrž i o slovech s frekvencí poměrně nízkou.

Analyzujeme-li slovní zásobu z hlediska frekvence slov a máme-li slova uspořádaná podle klesající frekvence, uplatňuje se tu jako činitel statistický i tzv. pořadí slova (range). I tomuto faktoru věnoval zvláštní pozornost G. K. Zipf (v druhé práci uved. v pozn. 11), zejména pokud jde o poměr mezi frekvencí slova a jeho pořadím. Vyjadřuje jej konstantou k = r . f (kde r je pořadí slova, f jeho frekvenční koeficient). Zipf tu vidí působení dvou protikladných sil. Jedna směřuje k tomu, aby slova měla co největší frekvenci, a tím aby jich bylo málo (mluví tu o ekonomii z hlediska mluvčího). Proti ní působí síla druhá, která se snaží, aby bylo v jazyce co nejvíce slov s poměrně nízkou frekvencí (zde pak se mluví o ekonomii z hlediska posluchače, resp. akceptora vůbec). I když tu jde do značné míry o zjednodušení skutečnosti (nepřihlíží se ke kontextu, žánru, druhu projevu apod.), přesto tu jistá zákonitost je a její studium může přinést nejeden cenný poznatek pro vertikální rozložení slovní zásoby. Formule sama byla na českém materiálu podrobena kritice a upravena.[12]

Z hlediska nových statistických metod jsou zákony Zipfovy i závěry z nich vyvozované kritizovány. Např. B. Mandelbrot[13] vytýká z hlediska angličtiny druhému zákonu Zipfovu (tzv. zákonu harmonickému) zejména to, že neplatí pro slova s nižší frekvencí. Chápe jej jako součást tzv. zákona kanonického, který vyjadřuje vztah mezi počtem slov v zkoumaném textu a různým užíváním těchto slov. P. Guiraud[14] ověřuje Zipfovy zákony na materiálu francouzském a kritizuje mimo jiné jejich generalizaci, kterou pokládá za příliš abstraktní. V poslední době podrobil zákony Zipfovy kritice G. Herdan (op. cit. v pozn. 8, 35n.); vytýká jim zejména „primitivnost“. Nesporným však zůstává, že jisté zákonitosti tohoto druhu v jazyce existují. Pro jejich postižení má moderní statistik prostředky dokonalejší, jak ukazuje nejnověji např. G. Herdan, a frekvenční seznam přináší další podklady pro aplikaci těchto nových metod, a tím i pro odhalování zákonitostí nových, dosud neznámých, ev. nejasných.

[177]Z hlediska čistě lingvistického lze kvantitativním zhodnocením jednotek slovní zásoby získat též nový pohled např. na poměr slov domácích, přejatých a cizích. Srovnání se staršími stadii jazyka (také zde hledisko frekvenční většinou čeká na své uplatnění) znamenalo by jistě přínos pro poznání vývoje jazyka.

 

II. Příspěvek frekvenčních seznamů k rozboru stylistickému (tzv. stylistická statistika)

Chápeme-li styl mimo jiné jako výběr jazykových prostředků, může přinést frekvenční seznam především mnoho cenných poznatků o jazykových prostředcích jak jednotlivých žánrů, tak i jednotlivých pramenů (autorů), na nichž je seznam založen. Předpokládá to ovšem, aby si autoři frekvenčního seznamu tento úkol jasně stanovili, což se musí projevit i v jisté technické úpravě seznamu. V seznamech staršího data, které byly určeny převážně jen k účelům didaktickým, je tento aspekt většinou zanedbáván, popř. není jasně vyjádřen. Zaměření k této problematice najdeme, pokud je mi známo, jen v ruském frekvenčním slovníku Josselsonově[15] a v novém frekvenčním slovníku češtiny (v. pozn. 1). Na jeho základě lze studovat jazykové prostředky nejen stylu uměleckého, ale i odborného a publicistického. Utřídění slovní zásoby podle stylistických vrstev najdeme např. i v moderním výkladovém slovníku, ovšem údaj o frekvenci slova nám ukazuje dynamiku (pohyb) v jednotlivých stylistických vrstvách i mezi těmito vrstvami. To je jeden z cenných přínosů frekvenčních slovníků zaměřených i k stylistice. Má význam jak pro praxi, pokud jsme na rozpacích, kdy kterého slova užít, tak i pro teorii jako podklad studia o jazykových prostředcích.

Frekvenční seznam, vyhovuje-li výše uvedeným podmínkám, dává možnost studovat i význam stylistického využití jednotlivých druhů slov. Pro češtinu bude zajímavé a užitečné srovnání, jak se stylisticky využívá např. substantiva a slovesa, a to v jednotlivých žánrech i u jednotlivých autorů.

Uvedla jsem již, že např. v knize K. Čapka „Život a dílo skladatele Foltýna“ je větší frekvence sloves než substantiv. Zhruba stejný poměr najdeme i v jeho knize „Obyčejný život“ (slovesa 19,90 %, substantiva 19,74 %). Jinak však ve stylu uměleckém (vyjímajíc dramata) i odborném bývá více substantiv než sloves (srov. cit. český frekvenční slovník). Např. v povídce Iv. Olbrachta „Bratr Žak“ je 25,48 % substantiv a 19,75 % sloves, v knize M. Pujmanové „Předtucha“ 23,55 % substantiv a 21,79 % sloves. Ukazuje se tu, že jak srovnání frekvence jednotlivých druhů slov v různých dílech téhož autora, tak i v dílech autorů jiných a konfrontace s údaji obecného charakteru, jaké přináší např. frekvenční slovník, může přinést cenné poznatky o stylu jednotlivých autorů. Např. u K. Čapka je převaha sloves, i když nepříliš výrazná, příznakem velké dynamičnosti jeho stylu a blízkosti jeho jazyka jazyku mluvenému, jak ukazuje shoda s frekvencí slovesa v dramatech.

Číselné údaje o slově přispívají, jak patrno, k novému osvětlení užití výrazových prostředků u jednotlivých autorů. Cenné je např. zjištění, která slova jsou pro kterého autora typická. Ze starších prací založených na kvantitativní metodě známe, že se po této stránce věnovala a věnuje velká pozornost slovníku vynikajících autorů, jako byli Homér, Sofokles, Dante, Spencer, Milton, Chaucer, v nové době Goethe, Puškin, Mickiewicz apod. Ukazuje se tu specifický přínos jednotlivých autorů do slovní zásoby a srovnáváním lze pak osvětlit, co přejali jako dědictví minulosti, i jak se projevoval jejich vliv na slovní zásobu doby [178]pozdější. Pro poznání slovní zásoby v synchronním průřezu mají důležitý význam i slovníky autorů současných. Pokud se nesestavují speciální slovníky k některým jejich dílům, nýbrž zařazují se do skupiny pramenů, o něž se opírá frekvenční seznam, obrážejí se jejich individuální zvláštnosti v slovech s nižší, popř. velmi nízkou frekvencí (v tzv. třetím pásmu). Na pozadí ostatní slovní zásoby se ukáže, které slovo je typické pro jistého autora a které má užití širší. Ovšem slova s velmi nízkou frekvencí se zpravidla ve frekvenčních seznamech neuvádějí, většinou z důvodů technických, takže se těchto seznamů pro studium slovníku jednotlivých autorů jako celku dobře využít nedá.

Na základě číselných údajů o slově lze nejen zkoumat, kterých výrazových prostředků autor užívá a jak často jich užívá, nýbrž lze vysledovat i jistou zákonitost při tom z hlediska stylistického. Těmito otázkami se zvlášť zabývá P. Guiraud.[16] Vycházeje ze zmíněné kritiky zákonů Zipfových, snaží se podle údajů o frekvenci slova, o jeho pořadí ve frekvenčním seznamu a distribuci vyjádřit u autorského slovníku zvláštními vzorci zejména tzv. koncentraci (spočívající v užívání omezeného počtu slov, která se častěji opakují) a bohatost (užívání většího počtu slov, která se méně často opakují). Při tom zvlášť přihlíží k délce textu, z něhož se dělají závěry, i k druhu slova;[17] vzhledem k stylistice je často třeba přihlížet i k různým významům jednotlivých slov.[18]

Množství problémů, které se na základě frekvenčního seznamu z hlediska stylistického nabízejí k studiu, nelze tu v úplnosti uvádět. Zmínky si však zaslouží zejména synonyma, jejichž proporcionální poměr je též kritériem při hodnocení jejich funkce,[19] a epiteton jakožto významný stylistický prostředek, zejména u některých autorů. Připomeňme si např. epiteton u Homéra[20] apod. Ukázku co možná všestranného stylistického rozboru na základě statistických údajů (slovníku Baudelairova, Rimbaudova, Mallarmého, Valéryho, Claudelova a Appolinairova) podal P. Guiraud (op. cit. v pozn. 14). U moderních autorů čeká tato otázka na zpracování. Při využití statistických metod může se tu objevit i mnoho nových poznatků a vztahů, ev. dosavadní zjištění v novém světle.

Patří již k historii využívání statistiky v jazyce, že se rozborem zejména slovníkových zvláštností zjišťovalo autorství nějakého díla v případě, když za neznámého autora byl pokládán autor, jehož díla jsou jinak bezpečně známa. Touto problematikou se zvlášť zabýval G. U. Yule,[21] který ukázal, že při studiu slovníku z hlediska stylistického je třeba zjistit poměr některých druhů slov nebo některých slov k celku. Zvláště tu jde o slova, která charakterizují některá období činnosti autora. G. U. Yule rozlišuje slovník dynamický a slovník statický a sleduje vztahy mezi speciálním slovníkem a slovníkem celkovým, vztahy mezi speciální frekvencí některých slov a frekvencí celkovou apod. Studuje i distribuci slov v různých dílech téhož autora, aby zjistil, jaký stupeň společného základu existuje mezi různými, ale přece podobnými díly, což chápe jako důkaz [179]autorství. Nepřijatelný je však jeho názor, že autor volí slova i podle začátečního písmena.

Z toho, co zde bylo uvedeno, vyplývá, že rozbor stylistických prostředků z hlediska kvantitativního má důležitý význam jak pro poznání stylu jednotlivých autorů, tak i pro řešení stylistických otázek vůbec. Předpokládá to ovšem řadu prací dílčích i syntetických.

 

III. Příspěvek frekvenčních seznamů k řešení otázek gramatických aj.

K tomu, co frekvenční seznam přináší k poznání slova a jeho druhů, lze přiřadit i množství problémů dílčích. Z hlediska kvantitativního lze např. u jmen sledovat poměr jmen obecných a vlastních, poměr abstrakt a konkrét (to může mít význam zejména pro sestavování učebnic a pro literaturu pro mládež). U slovesa můžeme studovat a vyložit např. poměr sloves zvratných a nezvratných, poměr vidových dvojic apod.

Pokud jde o gramatiku samu, má frekvenční seznam pro studium jejich otázek význam druhotný. Je obsažen v materiále, na němž je seznam založen, ale který se spolu se seznamem zpravidla nepublikuje. Do značné míry tu činí výjimku zmíněný český frekvenční slovník, který uvádí i frekvenci tvarů a základních kategorií jmenných i slovesných. Přináší např. údaje o frekvenci pádů u substantiv, odděleně podle jednotlivých rodů, resp. vzorů, a to jak v singuláru, tak i v plurálu. Tím zároveň nabýváme představy např. o frekvenci pádových koncovek. V těch pádech, kde volíme mezi dvěma, popř. více koncovkami, např. v lok. sg. neživ. maskulin vzoru hrad, je třeba další analýzy materiálu, abychom zjistili dobový úzus, ev. vývojové tendence v užívání jednotlivých koncovek.

Např. v materiále z cit. knihy K. Čapka má v 6. sg. vzoru hrad koncovka -u větší frekvenci než koncovka -e, -ě (téměř o 50 %). I když je nutno mimo jiné přihlížet k povaze koncové souhlásky, lze ve vyšší frekvenci koncovky -u vidět do jisté míry snahu o vyrovnání s dativem (kde je pouze koncovka -u). Analogickou tendenci možno na základě číselném zjistit u maskulin vzoru pán, pokud jde o koncovku -ovi, a u vzoru muž, pokud jde o koncovku -i. — Toto zjištění bude vyžadovat ověření na mnohem rozsáhlejším materiálu, ukazuje však, jak možno číselných údajů o slově využít v morfologii.

Statistickou metodou možno tedy získat množství číselných údajů o kategoriích jednotlivých druhů slov a odhadovat jejich zákonitosti.[22] Frekvenční seznam možno např. analyzovat z hlediska slovotvorného. Můžeme zjistit frekvenci přípon, předpon i některých slovních základů, zejména homonymních. Tímto způsobem lze získat jedno z objektivních kritérií pro hodnocení tzv. produktivity přípon a předpon. Zde by byla zejména na místě pomoc moderních mechanizačních prostředků.

Zvláštní kapitolu by bylo možno věnovat využití frekvence slov k účelům didaktickým, a to jak při vyučování mateřskému jazyku (zejména studium rozvoje slovní zásoby u dětí), tak i pro vyučování cizojazyčné (při sestavování učebnic a slovníků). Je to speciální problematika, která byla až dosud relativně nejvíce zpracována.[23]

Ze všeho toho, co zde bylo uvedeno, vyplývá i význam frekvenčních údajů [180]o slově pro práce, na nichž se podílí technika i jazykověda, tj. pro strojový překlad, pro teorii informace apod. Např. zřetel k ekonomii práce stroje při překladu se musí zakládat na podrobných statistických údajích mimo jiné o slovech, zejména při řešení otázek převodního jazyka, algoritmu apod.[24] Stejně i v teorii informace, např. při řešení otázek redundance je nutno přihlížet k frekvenci slova.[25] Fonetika a elektroakustika, zabývající se složitými otázkami přenosu mluveného slova, opírají se nejen o frekvenci hlásek a jejich kombinací, nýbrž i o frekvenci slov[26] jakožto konkrétních jednotek každého přenášeného textu. Je to speciální problematika, která již přesahuje rámec našeho článku, zaměřeného především ke stránce lingvistické. Je však nutno dodat, že nejen v té podobě, v jaké frekvenční seznam některé údaje přináší, nýbrž i v tom, jak jich lze dále využít, záleží hodnota frekvenčních seznamů ve zmíněných oblastech bádání.

Tento závěr má však platnost obecnou. Frekvenční seznam, frekvenční slovník je dílo sui generis, které sice na jedné straně přináší hotové poznatky a nová zjištění, na druhé straně však je materiálem (podkladem), z něhož lze další poznatky vyvozovat metodami jazykovědnými i matematickými. Z hlediska jazykovědného to platí především pro studium zákonitostí v slovní zásobě, globálně i parciálně (u jednotlivých autorů). Tato zjištění pak mohou být objektivním podkladem pro stylistickou analýzu děl jednotlivých autorů i celých směrů. Gramatika tu nachází nové údaje o svých kategoriích jednak přímo, jednak dalším rozborem výchozího materiálu. Většina těchto možností však čeká na realizaci, zvláště v češtině.

 

R é s u m é

О СТАТИСТИЧЕСКОМ ИССЛЕДОВАНИИ СЛОВАРНОГО ЗАПАСА

В своей статье автор на примере т. наз. частотного списка или частотного словаря чешского языка, который только что выходит, показывает значение числовых данных о частоте появления слов (в особенности чешских) — в первую очередь с лингвистической точки зрения.

Наряду со вкладом в характеристику понятия слова и новым освещением соотношений отдельных частей речи, — значение частотного списка слов она видит: (1) во вкладе в познание лексической стороны языка. Основные условия для этого — объем и содержательность материала, на базе которого исследуется частота слов. Ввиду того, что зависимость слова от темы в общем обратно пропорциональна его частоте, — при распределении слов по частоте можно выделить три основных слоя: 1. наиболее частые слова, в первую очередь грамматические (в общем с нулевой зависимостью от материала), 2. слова без отчетливо проявляющейся зависимости от матедиала, 3. слова с наименьшей частотой, главным образом существительные (здесь отчетливо сказывается зависимость от специфического характера материала). Изучение этих слоев проливет новый свет не только на структуру словарного запаса вообще, но и на словарный запас отдельных авторов. При этом необходимо принимать во внимание не только частоту слова, но и его распределение и место в частотном списке.

Частотный список способствует (2) стилистическому анализу (т. наз. стилистическая [181]статистика). На eго основе можно изучать языковые средства отдельных жанров и отдельных произведений или их авторов, стилистическое использование отдельных частей речи (в чешском напр. существительных и глаголов), функции синонимов, эпитетов и т. п.

Что касается собственно грамматики, то (3) здесь роль частотного словаря второстепенна. Она зависит в частности от материала, который не публикуется одновременно со списком, но который можно использовать при помощи современных средств механизации.

Наряду со своим науковам и дидактическим значениями, статистические данные о слове оказывают значительную помощь при решении некоторых вопросов как машинного перевода, так и теории информации.

Частотный список, частотный словарь — это своеобразный труд, с одной стороны приносящий законченные познавательные данные, с другой — служащий основой для выведения новых заключений как лингвистическими, так и математическими методами.


[1] O vzniku a vývoji tzv. frekvenčních slovníků a jejich přehled viz v úvodu k slovníku J. Jelínek - J. V. Bečka - M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961, 11—18. — Viz též P. Guiraud, Bibliographie critique de la statistique linguistique, Utrecht/Anvers 1954.

[2] Srov. M. Těšitelová, Otázky frekvence slov (zvláště v češtině), nepublikovaná disertační práce, 1951, 10—22.

[3] Frekvenci slov se zřetelem k jejich významům uvádí, pokud je mi známo, jen slovník M. Westa A General Service List of English Words with Semantic References, London 1953. — Srov. rec. V. Frieda v ČMF 37, 1955, 129—142.

[4] Podrobnosti viz v úvodu k slovníku uved. zde v pozn. 1.

[5] Srov. M. Vey, Espèces de mots et fréquence de vocabulaire en tchèque, Bulletin de la Société de linguistique de Paris 55, 1960, fasc. 1, 88—112.

[8] Srov. nejnověji G. Herdan, Type-Token Mathematics, ’s-Gravenhage 1960, 22.

[9] Srov. B. Trnka, K výstavbě fonologické statistiky, SaS 11, 1948—49, 61.

[10] Srov. G. U. Yule, The Statistical Study of Literary Vocabulary, Cambridge 1944, 9n.

[11] The Psycho-Biology of Language, Boston 1935 (srov. rec. N. Trubeckého v SaS 2, 1936, 252 — odmítavou; vytýká Zipfovi mechanické pojetí, zejména pokud jde o zákon, který se týká délky slova). — O té práci a o další The Human Behavior and the Principle of Least Effort, Cambridge 1949 viz též B. Trnka v ČMF 33, 1950, 3n. a v SaS, op. cit. v pozn. 9.

[12] M. Vey, A propos de la statistique du vocabulaire tchèque. Examen des principales relations numériques, Slavia 27, 1959, 396—409.

[13] Structure formelle des textes et communication, Word 10, 1954, 12n.

[14] Les caractères statistiques du vocabulaire, Paris 1954.

[15] Harry H. Josselson, The Russian Word Count, Detroit 1953.

[16] Srov. op. cit. v pozn. 14, zvl. 75n.

[17] Srov. též S. Golopenţiová - T. Pavel, Statistica şi stilurile limbii (Statistika a styly jazyka), Limba romînă 9, 1961, 58—65.

[19] Srov. J. Filipec, Česká synonyma z hlediska stylistiky a lexikologie, Praha 1961, 57n.

[20] M. Parry, L’épithète traditionnelle dans Homère; essai sur un problème de style homérique, Paris 1928.

[21] Srov. op. cit. v pozn. 10.

[22] Srov. P. Sgall, Soustava pádových koncovek v češtině, Acta Univ. Carolinae, Phil. 2, Slavica Pragensia II, 65—84.

[23] Srov. např. V. Příhoda, Rozvoj slovní zásoby, Gymnasium 36, 1948/49, 146—156. — V. Fried, Lingvistická statistika a hospodárnost v jazykovém vyučování, ČMF 23, 157—162.

[24] Srov. B. Palek, Strojový překlad v SSSR, SaS 20, 1959, 277—285.

[25] Srov. J. Krámský, Teorie sdělné promluvy, SaS 20, 1959, 55—66.

[26] B. Mandelbrot, op. cit. v pozn. 14. — B. Borovičková - Vl. Maláč, Fonetická problematika měření indexu poznatelnosti, SaS 22, 1961, 41—48.

Slovo a slovesnost, volume 22 (1961), number 3, pp. 171-181

Previous František Trávníček: O tak zvaném aktuálním členění větném

Next Lumír Klimeš: K Palackého překladu Dialogu Jana z Rabštejna