Časopis Slovo a slovesnost
en cz

Na okraj nových frekvenčních slovníků

Pavel Vašák, Marie Těšitelová

[Discussion]

(pdf)

О новых частотных словарях / À la marge des nouveaux vocabulaires de fréquence

Potřeba kvantitativních údajů o slovech, jejich částech, tvarech i gramatických kategoriích v projevech psaných i mluvených je stále naléhavá, jak ukazuje skutečnost, že řada frekvenčních slovníků a seznamů, které tyto údaje v různé míře k roz[268]manitým účelům přinášejí,[1] byla v posledních letech rozmnožena několika významnými díly. Je to (1) frekvenční slovník pro češtinu, který vyšel již r. 1961 a jehož recenzi časopis dosud dlužil, (2) frekvenční slovníky vyšlé v zahraničí, a to slovník pro ruštinu a pro němčinu z r. 1963 a nejnovější slovník pro španělštinu z r. 1964.

 

(1) FREKVENČNÍ SLOVNÍK ČEŠTINY

 

Základním údajem pro aplikaci postupů matematické statistiky a teorie informace v moderní lingvistice je frekvence jednotlivých jazykových jednotek i jejich tříd. Důležitost tohoto ukazatele vyplývá z obecného faktu, že vztah mezi členy téhož jazykového společenství je nejen v tom, jakým způsobem užívají jednotlivé jazykové jednotky a kategorie, ale též jak často jich užívají. Sledování kvalitativních i kvantitativních ukazatelů umožňuje lepší vysvětlení mnohotvárné jazykové skutečnosti. V tomto směru chybělo pro češtinu dílo, které by kvantitativní poměry postihovalo. Frekvenční slovník češtiny, kolektivní dílo J. Jelínka, J. V. Bečky a M. Těšitelové, vydaný v roce 1961 Státním pedagogickým nakladatelstvím pod názvem Frekvence slov, slovních druhů a tvarů v českém jazyce (586 s.), tuto mezeru úspěšně zaplnil a způsobem i kvalitou zpracování, odpovídající možnostem doby, v níž vznikal, patří mezi nejlepší díla svého druhu.

Frekvenční slovníky vznikaly jak známo vždy pro potřeby praxe. Tak např. první frekvenční slovník v našem smyslu, Kaedingův Häufigkeitswörterbuch der deutschen Sprache, vydaný v roce 1897, byl zpracován pro potřeby těsnopisců, ke konstrukci dokonalého těsnopisného systému. Pozdější díla tohoto druhu byla určena též pro didaktické účely, jmenovitě ke studiu cizích jazyků (např. slovníky Thorndikovy, slovník Vander Bekův apod.).

Frekvenční slovník obráží stav slovní zásoby jazykového období, na základě kterého vznikal. I když po jisté době v důsledku rozvoje slovní zásoby každý frekvenční slovník do jisté míry zastarává, zůstává trvalým dokladem jazykové skutečnosti a jeho závěry jsou užitečné i v budoucnosti. Příkladem může být zmíněný slovník Kaedingův, který půl století po svém vzniku posloužil Küpfmüllerovi[2] k vyčíslení entropie a redundance psané němčiny. Küpfmüllerovy výsledky ukazují dobrou shodu s údaji získanými predikční metodou, přes poměrnou zastaralost základních Kaedingových dat.

Před započetím práce musí autoři vyřešit celou řadu lingvistických a statisticko-pravděpodobnostních otázek (o. c. v pozn. 1, s. 172n.). Snahou autorů každého frekvenčního slovníku je, aby se vypočtené relativní četnosti co nejvíce blížily skutečným pravděpodobnostem výskytu dané jazykové jednotky v jazyce. Za tím účelem je nutné vyřešit dvě základní otázky: jak volit lexikální jednotku a materiál k excerpci. Autoři se proto musí vyrovnat s problémem rozsahu a lingvistického obsahu excerpovaného výběru, neboť vyřešení těchto otázek podstatně ovlivňuje výsledná frekvenční data. Výběr se většinou volí tak, aby měl určitou vlastnost, danou počátečním zaměřením sestavovaného slovníku. To je též přístup autorů českého frekvenčního slovníku, kteří zvolili k excerpci díla, která (až na dvě) byla vydána po r. 1930. Je sice pravda, že frekvenční slovníky využívají platnosti zákona velkých čísel, který přibližně řečeno tvrdí, že s rostoucím rozsahem výběru se vypočtené relativní četnosti blíží pravděpodobnostem. Lingvistická situace je však komplikovanější z toho důvodu, že jazyk není homogenní statistický soubor, v lingvistických statistických údajích se projevují značné rozdíly v závislosti na volbě excerpovaných děl. Zákon velkých čísel [269]dává možnost odhadnout, jak velký rozsah výběru volit, aby četnost byla rovna pravděpodobnosti s danou přesností; to se však patrně týká pouze slov formálních (gramatických), četnosti slov plnovýznamových jsou do velké míry závislé na tematice excerpovaného díla. K získání relativních četností slov formálních stačí zpracovat poměrně nevelký soubor; otázka volby rozsahu výběru pro těžiště každého frekvenčního slovníku — slova plnovýznamová — není dosud spolehlivě vyřešena. Autoři českého frekvenčního slovníku se pokusili odstranit tuto teoretickou obtíž tím, že excerpovaná díla vybrali a rozdělili do osmi typů: beletrie, poezie, literatura pro mládež, dramata, odborná literatura, žurnalistika, vědecká literatura a mluvené projevy (rozhlasové projevy vydané tiskem). Toto rozdělení bylo též motivováno snahou o postižení frekvenčních dat v jednotlivých stylistických oblastech a tím přispět k stylistickému rozboru češtiny. Při zpracování autoři užili výpisků z 75 děl; celkem bylo vyexcerpováno 1 623 527 slov.

Kapitola A, úvodní část slovníku (s. 9—27), obsahuje kritický přehled nejvýznačnějších domácích i zahraničních prací zabývajících se frekvencí slov. Při této příležitosti je třeba poznamenat, že se autoři poučili i z nedostatků prací svých zahraničních předchůdců a využívají jejich nejlepších zkušeností. To však neznamená, že by způsob zpracování českého frekvenčního slovníku byl mechanickou aplikací postupů užitých v zahraničních pracích. Autoři dále uvádějí zásady, kterými se řídili při výběru a tabulaci děl ke zjištění frekvence.

Důležitou otázkou při sestavování frekvenčních slovníků je definice lexikální jednotky, přes kterou se sčítá, tj. otázka, co považovat za „slovo“ (srov. o. c. v pozn. 1, s. 172—173). Touto komplikovanou otázkou se autoři zabývají na s. 22—25.

Rozsahem nejkratší, ale jinak významná kapitola B (s. 27—30) obsahuje rozbor otázky frekvence, stanovení kritéria pro sestavování pořadí slov podle hodnoty frekvence a dále srovnání hodnověrnosti zjištěné frekvence slova. Kapitoly C (s. 30—83) a D (s. 83—96) už obsahují konkrétní výsledky zkoumání: index opakování slov, frekvenci slovních druhů (údaje jsou přehledně uvedeny v tabulkách a diagramech) a frekvenci slovních tvarů. Těžiště celého díla, část E (s. 99—583), obsahuje prvních deset tisíc slov sestupně seřazených podle klesající hodnoty frekvence a dále abecední seznam, do kterého jsou zařazena slova s frekvencí 3 a vyšší. Dílo uzavírá podrobný seznam literatury zabývající se problematikou kvantitativního výzkumu slovní zásoby. Slova jsou uváděna v základním gramatickém tvaru (substantivum v nom. sg., sloveso v infinitivu, atd.); není to tedy slovník „slovoforem“, nýbrž lexikálních hesel. Tento fakt poněkud snižuje možnost využít slovníku k studiu frekvence tvarů jednotlivých druhů slov a omezuje např. studium otázek spojených se Zipfovým zákonem.

Autoři se neomezili jen na údaj četnosti, nýbrž každé slovo charakterizují třemi údaji: schematicky zapsáno x y z, kde x udává absolutní frekvenci, y počet skupin, v kterých se slovo vyskytlo, z počet pramenů, v nichž bylo slovo obsaženo. To znamená, že frekvenci slova doplňují tzv. distribučním faktorem. Tím je dána možnost údaj o frekvenci korigovat a doplňovat a tak zvýšit hodnověrnost vypočtených dat. Na základě distribučního faktoru je např. možno zjistit, že vysoká frekvence slova motor (701-6-17) je podmíněna ústřední tematikou Chocholovy knihy Spalovací motory. Distribuční faktor slouží též k zjišťování rozložení frekvenčních dat v jednotlivých stylistických oblastech a tím klade základy pro studium tzv. stylistické statistiky.

V seznamu slov podle frekvence autoři řadí slovo nejprve podle absolutní frekvence (x), při shodné frekvenci podle počtu doložených pramenů (z), dále podle počtu skupin (y) a nakonec podle abecedy. Domnívám se, že při shodné frekvenci je pro další řazení důležitější koeficient druhý (y), neboť rozdělení do skupin bylo motivo[270]váno snahou o co nejširší postižení mnohotvárnosti jazyka. Mnohotvárnost lépe postihuje počet skupin než počet doložených pramenů, i když většina slov v seznamu má tu vlastnost, že řazení podle x y z je totožné s řazením podle x z y. Způsob řazení je však pouze formální stránkou problému; libovolně zvoleným kritériem pro řazení se samozřejmě nijak nemění základní přínos každého frekvenčního slovníku — frekvenční data.

Zvolený způsob řazení není však vždy dodržován; jde pravděpodobně o chyby tiskárny. Většinou se vždy jedná o přehozené pořadí o jedno až tři místa.

Např. na s. 102 je úkol (619-8-54) před (619-8-69), znamenati (584-8-60) před zatím (584-8-66), na s. 103 forma (545-8-45) před či (545-8-62), Blažena (492-2-02) před počet (493-8-43), výsledek (453-7-30) před závod (453-7-33), na s. 104 kus (365-8-56) před platiti (365-8-66), na s. 105 pustiti (se) (269-8-45) před nepřítel (269-8-45), na s. 107 normální (196-6-29) před jednak (196-7-36), na s. 108 je zaměněno pořadí slov rychleji (155-8-42), zaplatiti (155-8-42) a role (155-8-26) apod. Slovo milenka je v abecedním seznamu s údaji (36-6-17), ale v seznamu podle frekvence je s údaji (34-6-17), slovo skrytý je uvedeno dvakrát, na místě 1964 a 2128; slovo vzhledem je v abecedním seznamu s údaji (92-6-22), ale s těmito údaji chybí v seznamu podle frekvence a je uvedeno na místě 2052 s údaji (94-6-22).[3]

Jednotné zpracování slovníku a možnost dalšího využití uloženého výchozího materiálu je velkou předností díla.

Je škoda, že slovník pro různé dobové překážky a neporozumění nevyšel podstatně dříve, ale takřka symbolicky na začátku éry strojů na zpracování informací. Užitím výběrových metod matematické statistiky i teorie pravděpodobnosti a zpracování výpočetní technikou by namáhavou a obrovskou excerpční práci podstatně urychlilo. Tím se však nijak nesnižuje hodnota a význam tohoto průkopnického díla, které vzbudilo i zasloužený ohlas a bylo velmi kladně přijato v zahraničí. I když statistický výzkum slovní zásoby spisovné češtiny není tímto dílem jistě ukončen, ale spíše započat, můžeme právem předpokládat, že Frekvence slov, slovních druhů a tvarů v českém jazyce zůstane trvale cenným klasickým materiálovým východiskem. Je třeba litovat, že malý náklad recenzovaného díla (pouhých 1100 výtisků) zdaleka nestačil zvýšenému zájmu, souvisejícímu zvláště s celosvětovým rozvojem aplikací matematických postupů v lingvistice. Bylo rozebráno za zcela kratičkou dobu po vyjití, kdy nebyl ještě uspokojen ani trh domácí, tím méně zahraniční, takže už několik let je stále a marně toto dílo žádáno. — Kvalita díla i potřeby lingvistů doma i v zahraničí nepochybně vyžadují nové vydání.

Pavel Vašák

 

(2) NOVÉ FREKVENČNÍ SLOVNÍKY RUŠTINY, NĚMČINY A ŠPANĚLŠTINY

 

Pro jazykové vyučování byl vypracován v SSSR za vedení E. A. Štejnfeľdtové Častotnyj slovar’ sovremennogo russkogo literaturnogo jazyka (Talin 1963, 316 s.), s podtitulem „2500 nejčastěji užívaných slov“. Slovník je určen jako objektivní základ pro stanovení slovníkového a gramatického minima v ruštině na estonských školách (počítaje v to i školu národní). Svou povahou stojí slovník Štejnfeľdtové mezi slovníkem F. Malíře[1] (předčí ho však rozsahem a výběrem textů) a slovníkem H. H. Josselsona,[2] který i nadále zůstává frekvenčním slovníkem spisovné ruštiny v pravém slova smyslu, i přes oprávněné výhrady k výběru jeho textů. Autorka oba uvedené slovníky v obsáhlém úvodu (s. 9—92) rozbírá a kriticky hodnotí (s. 14—20).

Slovník Štejnfeľdtové se opírá o 400 000 slov, resp. slovoforem, které byly získány [271]promyšleným výběrem podle návrhu R. M. Frumkinové.[3] Z 350 textů celkem stejné délky bylo vyexcerpováno zpravidla 1000 slov; z této zásady činily výjimku noviny (excerpovány totálně) a divadelní hry (excerpováno vždy 2000 slov). Z úvodu k slovníku není však bohužel patrno, jak byl výběr pořizován. Jde-li o zjištění slov nejfrekventovanějších, může nám 1000 slov z nějakého textu k danému účelu postačit, u slov méně frekventovaných, k nimž patří většina slov plnovýznamových, je tu problém, který jen do jisté míry pomáhá řešit počet textů. Rozsah textů, jedna ze základních a stále otevřených otázek při zjišťování frekvence slov, je třeba řešit nejen se zřetelem k zaměření slovníku, nýbrž i vzhledem k frekvenci různých jednotek (zvl. slov formálních a plnovýznamových) apod.

S rozsahem textů těsně souvisí i jejich výběr. Texty, z nichž se v slovníku Štejnfeľdtové vychází, jsou rozděleny do 5 skupin: (1) umělecká literatura pro mládež školního věku (100 000 slov), (2) umělecká literatura pro dospělé, povídky z časopisů apod. (50 000), (3) divadelní hry (50 000), (4) ruské relace v estonském rozhlase (100 000) a (5) novinářské články z různých časopisů (i odborných) pro mládež (100 000). Jde tedy převážně o jazyk literatury pro mládež, nikoli o současnou spisovnou ruštinu vůbec, jak uvádí titul slovníku. Zkušenost z práce na českém frekvenčním slovníku[4] sice ukázala, že mezi texty z umělecké literatury vůbec a literatury pro mládež neexistuje ve frekvenci slov (i gramatických kategorií), s výjimkou slov bezprostředně podmíněných tematikou, zdrobnělin apod., zásadní rozdíl, ovšem zařazením velkého počtu textů z literatury pro mládež nejnižších školních ročníků porušuje tuto rovnováhu ve prospěch jazyka literatury pro mládež. Dosvědčuje to i nejfrekventovanější substantivum rebjata, jehož český ekvivalent děti má ve FSČ největší frekvenci v literatuře pro mládež (skup. C), srov. i slova škola, mama, maľčik, devočka apod.[5]

I když se při výběru textů nemluví o problematice jazyka mluveného a psaného, mají tu zřejmě texty divadelních her a rozhlasových relací reprezentovat jazyk mluvený (srov. též FSČ, skup. D a H), jehož význam pro učení se ruštině jako cizímu jazyku má nesporně zásadní důležitost.[6] Ani rozhlasové relace nejsou bohužel blíže charakterizovány, ale přesto lze usuzovat, že jde ve většině případů jen o mluvenou formu psaných projevů, a vlastní mluvený projev se tak v slovníku do jisté míry obráží jen v divadelních hrách. Vzhledem k poslání slovníku v cizojazyčném vyučování je velmi malé zastoupení mluvených projevů v souboru textů závažným nedostatkem.

Jádro slovníku tvoří především seznam 2500 různých slov uspořádaných podle klesající frekvence (nejméně 14), která pokrývají asi 80 % textů různého žánru (s. 95 až 127). Základní jednotkou slovníku je sice tvar slova (resp. slovoforma), v uvedeném seznamu i v seznamech ostatních se však tvary transformují do základní podoby (např. substantivum do 1. sg., sloveso do infinitivu apod.; srov. též FSČ). Každé slovo v seznamu je vedle údaje o frekvenci charakterizováno i údajem o počtu textů, v nichž je doloženo. Musíme litovat, že není též zachycena distribuce jednotlivých slov v základních pěti skupinách materiálu. Toto zjištění by nejen dobře ukázalo jeho postavení v slovní zásobě a jeho stylistické využití, ale ovlivnilo by i jeho výběr pro slovníky, učebnice apod.

[272]Jen menší obměnou prvého seznamu je další seznam abecední (s. 223—291); uvádí se tu i druh slova a celková frekvence, vyskytuje-li se totéž slovo ve funkci několika slovních druhů.

Velkou pozornost věnuje slovník Štejnfeľdtové i frekvenci slovních tvarů (v úvodě s. 37—71); odděleně podle slovních druhů jsou pak sestaveny i frekvenční seznamy uspořádané podle počtu textů. Cenné jsou tabulky č. 4 a 5 (s. 38—39), které uvádějí u jednotlivých druhů slov počet různých slov, a to jednak v uspořádání podle frekvence (tab. č. 4), jednak podle počtu textů (tab. č. 5). Pokud jde o frekvenci základních druhů slov, je zajímavé srovnání s češtinou (FSČ):

 

v ruštině

v češtině

substantiva

44 %

39 %

adjektiva

13 %

21 %

slovesa

24 %

27 %

adverbia

9 %

9 %

Rozdíly jsou do značné míry podmíněny rozsahem a výběrem materiálu v obou slovnících, fakt sám by zasloužil zvláštního rozboru z hlediska struktur obou jazyků.

Ve zvláštních seznamech nacházíme v slovníku Štejnfeľdtové i frekvence tvarů jednotlivých substantiv (s. 130—168) a sloves (s. 180—209), vždy v uspořádání podle počtu textů (v obou případech slova doložená od 14 textů výše).

Tak u každého substantiva pojatého do uvedeného seznamu nacházíme (vedle počtu textů a frekvence) i údaje o frekvenci tvarů singulárových a plurálových a jejich frekvenci v jednotlivých pádech, nerozlišených však podle čísla. V tom bych spatřovala rovněž jeden ze základních nedostatků slovníku Štejnfeľdtové, neboť frekvence jednotlivých pádů v singuláru se liší od frekvence týchž pádů v plurálu. Například v češtině (FSČ) i ve zmíněném slovníku Josselsonově (v textech nekonverzačních) má gen. pl. mezi tvary plurálu největší frekvenci vůbec (FSČ 22,32 % — Joss. 26,4 %), kdežto u tvarů singulárových to platí o nom. sg. (FSČ 30 % — Joss. 28,5 %) apod. Slučováním tvarů singulárových a plurálových v jeden údaj je zkreslen obraz o frekvenci jednotlivých tvarů i pádů vůbec.

U sloves zaznamenává slovník frekvenci tvarů prézentních, minulých, imperativu a infinitivu v různém spojení, a to odděleně podle jednotlivých osob a čísel. Tyto údaje jsou zvlášť cenné, nejen pro jazykové vyučování. Totéž platí i o seznamu slovesných vazeb uspořádaných podle frekvence. Autorce se tu podařilo dobře ukázat, jak velké možnosti skýtá materiál shromážděný z hlediska frekvence slov a tvarů. Původní didaktické zaměření slovníku nebrání tomu, aby se tu nashromáždil velmi cenný materiál, jehož lze s prospěchem využít i pro kvantitativní studium jazykových jevů vůbec.

Zvláštní zmínky zaslouží ještě experiment, který byl proveden k zhodnocení efektivnosti slovníku (s. 73—92). Z celkového počtu slov 400 000 bylo vybráno 5500 nejčastějších a ta byla rozdělena do 4 skupin: 1300, 2000, 4000 a 5500 nejčastějších slov. Na výběru 58 různých textů (vždy v rozsahu 1000 slov) od autorů současných, ale i z konce minulého století byly prováděny zkoušky, do jaké míry uvedené seznamy daný text pokrývají. Výsledky experimentu prokázaly, že prvních 1300 slov (s frekvenčí od 40 výše) představuje 77—80 % textu, čímž se potvrzuje jistá ustálenost slov nejvíce frekventovaných. Tento fakt je ovšem v podstatě již dávno znám[7] a také pro češtinu konstatován,[8] ovšem pokus o stanovení maximální horní hranice [273]je jistě užitečný a zasloužil by ověření i na jiných jazycích. Vzhledem k omezenému výběru textů v slovníku nezdá se ovšem správné, že k ověření byly zvoleny i texty z konce minulého století a překlady; jazyk těchto textů se přirozeně odlišuje od jazyka současné literatury pro mládež, takže výsledky šetření jsou tím do jisté míry zkreslovány, avšak shody, které tu i tak byly konstatovány, jsou tím průkaznější.

Přes uvedené výhrady a nedostatky je třeba ocenit slovník Štejnfeľdtové jako významný přínos pro studium frekvence slov a jejich tvarů jak z hlediska metodologického (zásluhou R. M. Frumkinové je tu pokus o řízený výběr textů a měření efektivnosti slovníku), tak i věcného (slovník přináší cenné výsledky nejen pro metodiku vyučování, ale i pro studium slov a jejich tvarů v ruštině vůbec).

 

Pro němčinu vydal r. 1963 fonetik Hans-Heinrich Wängler frekvenční slovník hovorové horní němčiny.[9] Slovník je rovněž určen jako pomůcka pro jazykové vyučování. Ale i zde vznikla práce, která má širší dosah a je pro nás zajímavá zejména z hlediska metodologického. Klade si za cíl podat přehled nejčastějších jevů v dnešní mluvené horní němčině. Hovorovou němčinou se tu rozumí jazyk „nenucené zábavy“ (s. 8); nářeční prvky ap. byly při shromažďování materiálu pominuty.

Slovník se opírá o 80 266 slov ze severoněmecké oblasti; slova byla zachycena magnetofonem (téměř většinou bez vědomí mluvčích), transkribována a vyexcerpována vždy v rámci větného celku. Týž počet slov byl získán excerpcí různých zpráv a článků z denního tisku a ze zábavných časopisů. Tyto texty pak byly transkribovány s takovou výslovností, jaká bývá běžná v rozhlase. Celý materiál tedy tvoří 160 532 slov. Jde o výsledky dílčího výzkumu, podle autora by analogické šetření mělo být podniknuto v různých částech Německa.

Slova získaná uvedeným způsobem byla sestavena do čtyř seznamů: abecední seznam slov, resp. tvarů (u každého je uvedena výslovnost) s frekvencí v hovorové němčině (U), v tisku (Z) a celková frekvence (G). Druhý seznam obsahuje slova, resp. tvary uspořádané podle frekvence v U a Z (celkem 1022 tvarů), další seznam pořadí tvarů podle frekvence v U (735 tvarů) a seznam poslední pořadí tvarů podle frekvence v Z (742 tvarů). Slova stejné frekvence jsou seřazena abecedně a každé dostalo samostatné pořadové číslo. Je-li cílem práce stanovit pořadí slov podle frekvence, jak ostatně ukazuje i název slovníku, domnívám se, že uvedený postup u slov se stejnou frekvencí není správný a že všechna tato slova měla být uvedena pod jedním pořadovým číslem. Postup, který autor zvolil, zkresluje nejen pořadí slov o téže frekvenci, ale i slov ostatních a slovník tak pozbývá svého základního poslání.

 

Na sklonku r. 1964 vyšel v známém holandském jazykovědném nakladatelství Mouton nový frekvenční slovník pro španělštinu Frequency Dictionary of Spanish Word,[10] jehož autory jsou Al. Juilland a E. Chang-Rodriguez. Je to první velký frekvenční slovník, který byl pořízen s pomocí elektronkových počítačů a nebyl primárně určen pro cíle pedagogické, nýbrž byl koncipován jako nezbytná součást strukturního studia jazyka, v daném případě španělštiny. Je to v pořadí čtvrtý velký frekvenční slovník španělštiny,[11] i když ne největší: obsahuje 500 000 slov získaných celkem z 25 000 vět. Klade si za cíl podat absolutní i relativní četnosti jazykových jednotek různých řádů a druhů slov na základě reprezentativního výběru textů. Slovníku předchází obsáhlý úvod (s. XIII—LXXVIII), v němž autoři podrobně vykládají [274]zásady tohoto výběru, popisují kód, jehož bylo třeba pro zpracovávání materiálu na děrnoštítkových strojích a elektronkových počítačích, a odůvodňují statistické charakteristiky, které provázejí jak jednotlivá slova různá, tak jejich jednotlivé tvary.

Pokud jde o výběr textů, autoři se poučili z postupů uvedených slovníků předcházejících a snažili se vyvarovat jejich chyb, popř. disparátností. Tak například vyloučili ze svého výběru, na rozdíl od slovníku Buchananova a Rodrigueza Boua, texty z Latinské Ameriky, dále texty didaktické a náboženské i texty nářeční (s těmi pracuje např. Garzia Hoz). K zajištění časové homogenity byl výběr omezen jen na psané texty, které vyšly v l. 1920—1940. Patrně vzhledem k mechanografickému zpracování textů nebyly do výběru pojaty též projevy mluvené, ačkoli bychom dnes materiál toho druhu považovali za nezbytnou součást základu pro frekvenční slovník kteréhokoli moderního jazyka. To bych pokládala za jeden ze základních nedostatků tohoto slovníku; je ovšem třeba podotknout, že z pěti žánrů, z nichž byly texty pro Juillandův slovník vybrány, tvoří první skupinu divadelní hry, které tento nedostatek do značné míry kompenzují (srov. též FSČ), další skupiny jsou pak: literatura beletristická, essayistická, technická a periodika. V rámci jednotlivých skupin byly náhodným výběrem ze seznamu autorů a jejich děl podřízeny soubory po 100 000 slov. Při tom byl z každého textu stanoven pokusně průměrný počet stran relativně k druhu žánru a průměrný počet slov na stránku (400) bez uvedeného zřetele. Kromě toho byla určena průměrná délka věty v počtu slov (v div. hrách 15 slov, v beletrii 30, v essayích 40, v technické literatuře 24).

Tímto způsobem vybrané věty byly uloženy na děrné štítky IBM a přeneseny na elektromagnetickou pásku; počet slov v každé větě byl sečten a jednotlivá slova identifikována. Tak se zhruba postupovalo dotud, dokud nebyl z každého žánru vybrán soubor 100 000 slov. K identifikaci slov byl sestaven kód, který stanovil, co je totéž slovo a co slovo různé (stanoveno na základě analýzy textů i systému). Zvláštní pozornost bylo třeba věnovat homonymii (lexikální, syntaktické a morfologické). Syntaktická homonymie se tu rozlišuje na základě různých syntaktických funkcí jednotlivých druhů slov, morfologická homonymie pak jen na základě gramatických kategorií, např. u sloves podle osoby a času. Ukazuje se tu velmi dobře, jak pojetí gramatické homonymie závisí na struktuře jednotlivých jazyků, popř. jejich typologicky příbuzných skupin.

Jako v analogických případech tvoří jádro slovníku seznamy slov se statistickými charakteristikami. V daném případě jsou to seznamy dva: Především abecední seznam různých druhů slov (v základních podobách) a jejich tvarů (seznam nese název Types and Tokens[12]) s několika koeficienty. U různých slov, která jsou vždy určena i podle slovního druhu, jsou to koeficienty tři: koeficient tzv. obecného užití (označeného U), frekvence (F) a rozptýlení (dispersion — D). Koeficient frekvence se rovná sumě všech výskytů ve všech pěti žánrech (absolutní četnosti). Koeficient rozptýlení (D) byl stanoven formulí

 

kde σ značí směrodatnou odchylku a m průměr.

Koeficient užití (U) je určen na základě uvedených dvou koeficientů podle formule:

 

Podle toho např. subst. dolor (bolest) má tyto charakteristiky

dolorn. U: 52,68 F: 70 D: 75,26

[275]Koeficienty U a D v podstatě korigují údaj o frekvenci: frekvence slova, která i při tak dobře statisticky fundovaném výběru, který nacházíme v slovníku Juillandově, přece jen obráží závislost především na tématě vybraných textů, liší se od skutečného užívání slova v jazyce, jak ukazuje jeho rozptýlení od průměru, tj. jeho různé doložení v jednotlivých žánrech i jejich textech. Zavedení koeficientů U a D je důležitým předpokladem pro správné posouzení, jaké postavení má slovo ve struktuře slovní zásoby.

Pokud jde o frekvenci, je dále blíže specifikována distribucí v jednotlivých žánrech (srov. i FSČ), např. u zmíněného slova dolor absolutními četnostmi: 11, 25, 13, 17, 4. Cenné je i to, že u slov ohebných je uvedena také frekvence jednotlivých tvarů (jednak celkově, jednak podle rozložení v jednotlivých žánrech); užitečné by i tu jistě bylo zavedení charakteristik U a D. Ale i tak přináší slovník potřebné údaje o frekvenci jednotlivých tvarů.

Druhý seznam se týká jen různých druhů slov: jsou rozdělena do tří dílčích seznamů podle koeficientu U, F a D, vždy po 500 slovech. Toto srovnání zejména dobře ukazuje, že třeba rozlišovat mezi frekvencí slova a jeho skutečným užitím. S tímto důležitým faktem se analogickým způsobem vyrovnal i FSČ.

Nový frekvenční slovník španělštiny je nepochybně krokem vpřed, zejména pokud jde o techniku zpracování a výběru textů i uvádění statistických charakteristik, i když ani zde, ani v jiných základních otázkách při studiu frekvence slov, jako jsou např. druh textů a rozsah jejich výběru, neznamená zcela uspokojující konečné řešení.

Všechny tři nové frekvenční slovníky si právem zaslouží pozornosti nejen metodiků v oblasti jazykového vyučování, nýbrž i co nejširšího okruhu lingvistů.

Marie Těšitelová


[1] Srov. M. Těšitelová, K statistickému výzkumu slovní zásoby, SaS 22, 1961, 171—181.

[2] K. Küpfmüller, Die Entropie der deutschen Sprache, Fernmeldetechnische Zeitschrift 7, 1954, 265—272.

[3] Viz též M. Vey, BSL (Paris) 58, fasc. 2, s. 189—191.

[1] Rusko-český slovník nejdůležitějších slov pro četbu sovětského tisku, Praha, 1. vyd. 1951, 2. vyd. 1952.

[2] The Russian Word Count, Detroit 1953.

[3] Srov. např. R. M. Frumkina, Nekotoryje voprosy metodiki sostavlenija častotnych slovarej, sb. Mašinnyj perevod i prikladnaja lingvistika, Moskva 1959, č. 2; nejnověji Statističeskije metody izučenija leksiki, Moskva 1964.

[4] Srov. zde s. 268—270; dále jen FSČ.

[5] Srov. též recenzi Štejnfeľdtové slovníku od L. I. Ješana a P. M. Aleksejeva ve VJaz 1964, č. 6, s. 130—134.

[6] Srov. Vl. Barnet, Audioorální metody ve vyučování cizím jazykům, SaS 26, 1965, 186—191.

[7] Srov. např. G. K. Zipf, The Psycho-Biology of Language, Boston 1935, s. 25n.

[8] Srov. např. M. Těšitelová, K entropii jazyka z hlediska frekvence slov, sb. Kybernetika a její využití, Praha 1965, s. 302: prvních 100 nejčastějších slov v češtině představuje 41 % textu.

[9] Rangwörterbuch hochdeutscher Umgangssprache, Marburg 1963, 67 s.

[10] Slovník (500 s.) vyšel v nové sérii pro strukturní studium rom. jazyků.

[11] Srov. M. A. Buchanan, A Graded Spanish Word Book, Toronto 1927 (obsahuje 1,200 060 slov); L. Rodriguez Bou, Recuento de Vocabulario Español, Puerto Rico 1952 (obsahuje 7,066 637 slov); V. Garzia Hoz, Vocabulario Usual, Vocabulario Comun y Vocabulario Fundamental, Madrid 1953 (obsahuje 400 000 slov).

[12] Srov. G. Herdan, Type-Token Mathematics, ’S-Gravenhage 1960.

Slovo a slovesnost, volume 26 (1965), number 3, pp. 267-275

Previous Jan Šabršula: K některým otázkám makrosémantiky (Na okraj romanistických prací o tzv. sémantických polích)

Next František Svejkovský: Výbor z české literatury pokročil