Časopis Slovo a slovesnost
en cz

Nad frekvenčním slovníkem ukrajinštiny

Marie Těšitelová

[Discussion]

(pdf)

Над частотным словарем украинского языка / On frequency dictionary of Ukrainian

V kyjevském nakladatelství Naukova dumka vyšel r. 1981 ve dvou velmi reprezentativních svazcích — v rozsahu 1718 s. — Častotnyj slovnyk sučasnoji ukrajins’koji chudožn’oji prozy autorského kolektivu vedeného V. S. Perebejnosovou. Frekvenční slovník současné ukrajinské umělecké prózy (dále jen FSU) představuje první část velkého kolektivního díla, které ve spolupráci s vysokými školami připravili pracovníci oddělení matematické a strukturní lingvistiky Institutu movoznavstva O. O. Potebni AN USSR v rámci rozsáhlé kvantitativní analýzy současné spisovné ukrajinštiny. Druhou část — frekvenční slovník současné ukrajinské publicistiky — připravují pracovníci katedry obecné a aplikované lingvistiky Charkovské státní univerzity, třetí část — frekvenční slovník matematicko-fyzikální literatury, tedy významné oblasti odborného jazyka — zpracovávají pracovníci katedry matematické lingvistiky Kyjevské státní univerzity. Při práci na tomto rozsáhlém díle se využívá — dnes už s jistou samozřejmostí — samočinných počítačů; poznamenejme, že jak předmětem kvantitativního studia, tak i využitím moderní výpočetní techniky se práce ukrajinských lingvistů v mnohém shoduje s kvantitativní analýzou češtiny prováděnou v Ústavu pro jazyk český ČSAV v úseku matematické lingvistiky.

Úvod k FSU napsala vedoucí autorského kolektivu V. S. Perebejnosová, známá ukrajinská odbornice v oblasti matematické lingvistiky, autorka mnoha prací týkajících se kvantitativní analýzy ukrajinštiny i angličtiny. Na začátku úvodu k FSU [58]autorka připomíná, že existuje dosud na 400 frekvenčních slovníků (k tomu Těšitelová, 1977).

Dodejme, že do tohoto počtu nejsou např. zahrnuty frekvenční slovníky, které byly v poslední době připraveny v oddělení (dnes úseku) matematické lingvistiky Ústavu pro jazyk český ČSAV, a to: Frekvenční slovník současné české publicistiky (Praha 1980, 189 s.), Frekvenční slovník současné administrativy (Praha 1980, 80 s.), Frekvenční slovník současné odborné češtiny (Praha 1982, 229 s.) a Frekvenční slovník češtiny věcného stylu (Praha 1983, 329 s.). Všechny tyto frekvenční slovníky byly rozmnoženy pro interní potřeby Ústavu pro jazyk český ČSAV a autorka je většinou nemohla znát.

I když tedy dnes existuje tolik frekvenčních slovníků a v nich bývají úvody objasňující jejich úkoly, pokládám za užitečné, že V. S. Perebejnosová ve svém úvodu tyto úkoly znovu připomíná. Frekvenční slovníky umožňují hlouběji proniknout do fungování jazyka, prakticky lépe poznat jazyk a jeho potřeby, protože jednotlivá slova se nevžívají stejně, různě se opakují, a to v různých textech různých stylů (srov. i Těšitelová, 1974). Všechna tato zjištění jsou potřebná nejen pro jazykovou praxi, ale i teorii, pro strojovou lingvistiku, informatiku, automatické zpracovávání textu apod. (srov. k tomu dále).

Dále pak autorka charakterizuje a zdůvodňuje zásady, jimiž se řídila a řídí práce na FSU. Pro kvantitativní analýzu jazyka ukrajinské umělecké prózy byl zvolen korpus 500 000 slov, která pokrývají 80—90 % textu. Podle dosavadních zkušeností s rozsahem korpusu je to počet optimální (Těšitelová, 1977). Výběr materiálu byl pořizován experimentálně po 1000 slov. K analýze byla vybrána díla 25 autorů z l. 1945—1970, u každého autora bylo pořízeno 20 výběrů z různých „míst“ jeho díla. To znamená, že větší důraz byl položen na výběr autora než díla, které je reprezentováno několika výběry, nikoli tedy jako celek, popř. jeho část (Těšitelová, 1974, s. 17n.). V textu (resp. výběru) se u každého autora důsledně rozlišuje přímá řeč od řeči autorské; to je třeba jistě ocenit, protože jak po stránce lexikální, tak i gramatické a sémantické výstavby věty a vyšších celků jsou vzhledem k tomu rozdíly, které je třeba při kvantitativní analýze jazyka uměleckého stylu respektovat, ale které se při shromažďování materiálu poměrně nesnadno zachycují.

Jako jednotka korpusu se ve FSU chápe slovo, v podstatě — jak je to v lexikální statistice dosud obvyklé (Těšitelová, 1974) — grafická jednotka, písmeno nebo skupina písmen mezi dvěma mezerami. Tvary slov (slovoformy) se řadí k slovům základním, tj. lexikálním jednotkám, lexémům. Z korpusu se vyřazují vlastní jména, která prý budou zpracována zvlášť. To je poměrně originální řešení. Ovšem i když vlastní jména mají v lexikální statistice speciální postavení a zejména v próze jsou do značné míry nahodilá, přece jen jde o substantiva, popř. spojení substantiva a adjektiva apod., která mají při výstavbě textu své místo z hlediska minimálně slovnědruhového, a proto patří — podle mého názoru — i do výsledného frekvenčního slovníku.

Vzhledem k tomu, že ukrajinština — právě tak jako např. čeština — má bohatou morfologii, věnuje se ve FSU velká pozornost i tvarům slov (slovoformám), popř. i jejich variantám. I to je třeba ocenit jako klad FSU. Žádný z dosavadních frekvenčních slovníků pro jazyky s bohatou morfologií jim u jednotlivých lexémů do takové míry pozornost nevěnoval; ve frekvenčním slovníku češtiny (1961, dále jen FSČ) jde o celkový počet tvarů, tvary slov se uvádějí např. ve frekvenčním slovníku španělštiny, srov. Juilland a kol., 1964. FSU nás názorně přesvědčuje o tom, že ve frekvenčním slovníku možno vedle lemmat uvádět i tvary slov. Bránila tomu dosud většinou stránka technická, obava z velkého rozsahu frekvenčního slovníku než nedoceňování významu zjišťovat i frekvenci tvarů slov (srov. FSČ; Těšitelová, 1974, s. 73n.).

[59]Pokud jde o koeficienty (kvantitativní charakteristiky), uvádějí se u jednotlivých slov a tvarů, popř. variant těchto tvarů: absolutní frekvence, relativní frekvence, počet textů (pramenů), v nichž se slovo nebo tvar vyskytují, počet minimálních výběrů, průměrná frekvence ve výběrech (které jsou relativně stejně dlouhé — 1000 slov —, k tomu srov. i výše zmíněný Frekvenční slovník češtiny věcného stylu) a směrodatná odchylka. Absolutní a relativní četnosti jsou u každé jednotky ve slovníku uvedeny odděleně jednak pro řeč přímou, jednak pro řeč autorskou. Tyto charakteristiky lze rovněž uvítat jako cennou specifiku FSU. Při studiu rozložení slov a jejich tvarů i jejich číselného poměru konstatuje V. S. Perebejnosová zajímavé vztahy: v přímé řeči jde o poměr 14 022 slov (v terminologi lexikální statistiky — různých slov) a 28 733 tvarů slov (resp. různých tvarů slov), v řeči autorské 29 643 různých slov a 70 102 tvarů slov, v celém korpusu 33 391 slov různých a 86 284 tvarů slov. Na základě poměru počtu různých slov k počtu různých tvarů slov zavádí se ve FSU tzv. koeficient analytičnosti; pro ukrajinštinu byl stanoven na 0,5 (v rámci 100 000 slov, kde je 13 258 slov různých a 26 275 různých tvarů slov). (Podle naší sondy je v češtině (podle FSČ) tento koeficient nižší — 0,34.) V této souvislosti V. S. Perbejnosová konstatuje, že počet tvarů slov roste rychleji než počet slov různých.

Pro češtinu se však ukazuje, že na prvních 100 nejvíce frekventovaných slov (např. u K. Čapka, srov. Těšitelová, 1974, s. 76n.), tj. na slova s pořadím 1.—100., připadá 52,55 % slov různých a 38,50 % různých slovních tvarů. Pokud jde o slova s frekvencí 1 (srov. též dále), nacházíme v analyzovaném českém textu 58,41 % různých slov, ale 71,24 % různých tvarů slov. U slov s frekvencí 2 je tento rozdíl podstatně nižší, 15,30 % slov různých na 13,03 % tvarů slov. Tyto rozdíly by si zasloužily zvláštní analýzy, která ovšem nemůže být předmětem této recenze.

Ve FSU se sleduje i poměr počtu různých slov i různých tvarů slov v řeči přímé i autorské. Tak se např. pro řeč přímou ukazuje poměr počtu různých slov k počtu různých tvarů slov: 14 022 : 28 733, pro řeč autorskou 29 643 : 70 102. Znamená to, že v přímé řeči je kvocient analytičnosti shodný s hodnotou kvocientu v celém frekvenčním slovníku (tj. uměleckého stylu), v autorské řeči je však nižší — 0,4. Slovník tvarů slov je tedy v autorské řeči „bohatší“ než v řeči přímé a jeho jednotky se častěji opakují. Také tyto relace by zasloužily ověření i na materiálu z jiných jazyků.

Hodně místa se v úvodu k FSU věnuje nejen počtu tvarů slov a jejich poměru k počtu slov různých, nýbrž i procentu, v jakém pokrývají text. Podle FSU slova do frekvence 30 pokrývají 71,5 % korpusu, v řeči přímé 67,13 %, v řeči autorské 64,82 %; tvary slov pak pokrývají 51,99 % v korpusu, v řeči přímé 52,76 %, v řeči autorské 48,35 % (data pro korpus srov. s daty uvedenými výše pro češtinu). Toto pokrytí textu se hodnotí jako míra efektivnosti frekvenčního slovníku; čím vyšší procento textu slova pokrývají, tím je slovník efektivnější, tím vyšší je i frekvence slova.

V závěru svého úvodu V. S. Perebejnosová relativně podrobně probírá i využití frekvenčního slovníku vůbec. Podle mých zkušeností činí tak právem, protože význam kvantitativního výzkumu i význam děl, resp. výsledků, které při tom vznikají, není dosud stále dostatečně pochopen a doceněn, a to i v lingvistice. Na prvé místo, pokud jde o využití frekvenčního slovníku, klade autorka — ve shodě se sovětským tradičním využíváním frekvence slov — sestavování tzv. minimálních slovníků (Rachmanov, např. 1947, 1960). Takový slovník umožňuje objektivně pořídit výběr slov pro sestavování učebnic a jazykových příruček, ať již jde o vyučování jazyku mateřskému nebo cizímu. Je ovšem třeba zdůraznit, že zřetel k frekvenci slova může být pouze jedním ze základních kritérií, která rozhodují o výběru slov pro takové účely. — Jako druhou — významnou oblast pro využití frekvenčních slov[60]níků — uvádí V. S. Perebejnosová teoretické studium jazyka, v daném případě ukrajinštiny. Velmi dobře ukazuje, že se při zjišťování frekvence slov postihuje zejména fungování systému lexikálního i gramatického, stupeň produktivnosti slov a jejich spojení, rozšiřuje se studium stylistické, ať jde o studium jednotlivých funkčních stylů nebo stylu autorského, zvl. pokud jde o bohatství lexikálního složení (srov. Těšitelová, 1974). Vykládá se tu rovněž, jaký význam má pro lexikální statistiku stylu uměleckého rozlišování a kvantifikování řeči přímé a autorské. V této souvislosti se vyzdvihuje význam pro posouzení různosti slovníku, struktury textu, uplatnění koheze textu, tématu apod. — Jako třetí význam frekvenčního slovníku uvádí autorka studium typologické, zejména pokud jde o studium tzv. bohatství slovníku v jazycích různého typu. Platí to ovšem nejen pro rovinu lexikální (k tomu srov. Těšitelová, 1977, s. 60n.). — Na závěr úvodu V. S. Perebejnosová zdůrazňuje i význam frekvenčního slovníku pro automatickou analýzu textu; ukazuje, že některých formálních rysů je možno využít při sestavování algoritmů i programů pro samočinné počítače, daty o frekvenci slov a jejich tvarů vytvořit základ pro formulování pravidel bázové gramatiky, ať jde o tvoření slov, paradigmatiku slovníku, nebo změny významu slov, postihnout minimální počet pravidel pro výstavbu různých textů apod.

Sám FSU sestává z pěti seznamů; jsou to:

(1.) abecední frekvenční slovník (inkluzíve frekvence 1), který je pro svou obsáhlost rozdělen do dvou dílů (I., s. 25—863, II., s. 7—497): u každého hesla je uvedena základní podoba (lemma), u ohebných slov tvary v systému paradigmatickém, pokud jsou doloženy, k nim se přiřazují údaje o slovnědruhové příslušnosti, u tvarů jména morfologické kategorie, u sloves pouze údaje o čase a způsobu, u všech pak koeficienty jako frekvence absolutní a relativní atd., jak bylo uvedeno výše;

(2.) abecední seznam tvarů slov s frekvencí 1 (s. 498—620), u nichž jsou uvedeny rovněž slovnědruhové a morfologické charakteristiky, z kvantitativních charakteristik počet pramenů (tj. textů, výběrů, v nichž jsou doloženy) a příslušný tisíc slov, kam se podle frekvence řadí (analogický způsob zvolil i E. L. Thorndike, srov. Těšitelová, 1977, s. 46); u tohoto seznamu nepřekvapuje velký počet různých tvarů slov (pro češtinu srov. výše);

(3.) seznam slov a jejich tvarů uspořádaných podle klesající frekvence v přímé řeči (II., s. 621—643): u jednotlivých slov se uvádí rank slova i jeho tvaru (přirozeně stejný u slova a tvaru s touž frekvencí), údaj slovnědruhový, popř. morfologický spolu s absolutní frekvencí slova nebo tvarů slov do frekvence 10. Mezi prvních 10 slov tu patří: (1.) částice ne, (2.) zájmeno ja, (3.) spojka a, (4.) předložka v, (5.) spojka i, (6.) zájmeno ty, (7.) předložka na, (8.) částice i, (9.) předložka z, (10.) zájmeno vy; ukazuje se tu relativní blízkost projevům mluveným (Těšitelová, 1978);

(4.) seznam slov a jejich tvarů uspořádaných podle klesající frekvence v řeči autorské (II., s. 644—711) s uváděním stejných dat jako u seznamu týkajícího se přímé řeči: mezi prvních 10 slov se tu dostávají tato slova: (1.) spojka i, (2.) předložka v, (3.) předložka na, (4.) zájmeno on, (5.) částice ne, (6.) předložka z, (7.) předložka do, (8.) zájmeno ona, (9.) spojka a, (10.) částice i; u většiny z nich možno konstatovat shody s frekvencí slov v češtině (srov. FSČ);

(5.) frekvenční seznam slov a jejich tvarů uspořádaných podle klesající frekvence v textech do frekvence 10: u každého hesla se uvádějí slovnědruhové, popř. morfologické charakteristiky, dále absolutní frekvence a počet pramenů (textů), tj. 25, a minimální počet výběrů, v nichž jsou slova nebo tvary slov doloženy.

Mezi prvních 10 nejvíce frekventovaných slov v ukrajinštině se tu dostává: (1.) spojka i, (2.) předložka v, (3.) částice ne, (4.) předložka na, (5.) předložka z, (6.) zájmeno on, (7.) spojka a, [61](8.) předložka do, (9.) zájmeno ja, (10.) částice i. Jsou tu výrazné shody s ruštinou, srov. prvních 10 nejčastějších slov ve frekvenčním slovníku ruštiny (Zasorinová, 1977): (1.) předložka v(o) (2.) spojka i, (3). částice ne, (4.) předložka na, (5.) zájmeno ja, (6.) sloveso byt’, (7.) zájmeno čto, (8.) zájmeno on, (9.) předložka s(o), (10.) spojka a. Nabízí se srovnat uvedená data o ukrajinštině a ruštině s daty např. pro češtinu (podle FSČ): (1.) spojka a, (2.) sloveso být, (3.) zájmeno ten, (4.) předložka v(e), (5.) zájmeno on, (6.) předložka na, (7.) spojka že, (8.) předložka s(e), (9.) předložka z(e), (10.) zájmeno který. V rozmnožení analogických dat bychom mohli pokračovat připojením dat např. ze slovenštiny podle frekvenčního slovníku slovenštiny (Mistrík, 1969): (1.) spojka a, (2.) sloveso byť, (3.) předložka v, (4.) předložka na, (5.) zvratné zájmeno sa, (6.) zájmeno ten, (7.) zájmeno on, (8.) spojka že, (9.) předložka z, (10.) zájm. příslovce a spojka ako. Předvedli jsme malou ukázku toho, jak je možno využít frekvenčního slovníku k typologickému studiu slovníku (srov. můj návrh, Těšitelová, 1968), ale i struktury gramatické (srov. rozdíly v užívání zájmen a slovesa být), výstavby textu (např. doložení zájmen apod.) atd.

FSU představuje cenný přínos do lexikální statistiky, zejména pro studium slovníku slovanských jazyků, ale i do studia jazyka umělecké prózy. Jde o složitou problematiku, protože každé umělecké dílo (pramen) je útvar sui generis (srov. FSČ; Hausenblas, 1967). Důsledné rozlišování řeči přímé a autorské významně přispívá k řešení této problematiky a zároveň představuje důležitou specifiku FSU. Zvláštního ocenění zaslouží dále fakt, že jako doplněk k FSU bude uveřejněn na základě shromážděného materiálu i slovník retrográdní. Spolu s dalšími dvěma připravovanými částmi (srov. výše) dostane se současné ukrajinštině významných pramenů k jejímu kvantitativnímu popisu.

 

LITERATURA

 

ČASTOTNYJ SLOVAR’ RUSSKOGO JAZYKA. Ed. L. N. Zasorina. Moskva 1977; rec. v SaS, 41, 1980, s. 235—239.

HAUSENBLAS, K.: Zobrazení prostoru v Máchově Máji. In: Realita slova Máchova. Praha 1967, s. 69n.

JELÍNEK, J. - BEČKA, J. V. - TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

JUILLAND, Al. - CHANG-RODRIGUEZ, E.: Frequency dictionary of Spanish words. The Hague 1964.

MISTRÍK, J.: Frekvencia slov v slovenčine. Bratislava 1969.

RACHMANOV, I. V.: Slovar’ minimum po anglijskomu, francuzskomu i nemeckomu jazykam. Moskva 1947.

RACHMANOV, I. V.: Slovar’ najboleje upotrebitel’nych slov anglijskogo, nemeckogo i francuzskogo jazykov. Moskva 1960.

TĚŠITELOVÁ, M.: K typologii slovanského slovníku z hlediska kvantitativního (na českém materiálu). In: Čs. přednášky pro VI. mezinár. sjezd slavistů v Praze. Praha 1968, s. 95—99.

TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha 1974.

TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Lingvistické příručky. UK. Praha 1977.

TĚŠITELOVÁ, M.: On some questions of spoken scientific discourses of men and women (From the point of view of quantitative analysis of their vocabulary). PSML, 8, 1978, s. 47—58.

Slovo a slovesnost, volume 45 (1984), number 1, pp. 57-61

Previous Jan Petr: Ukrajinský sborník o marxistické metodologii v jazykovědě

Next Miroslav Komárek: Karel Hausenblas šedesátiletý