Časopis Slovo a slovesnost
en cz

O nových frekvenčních slovnících finštiny a nizozemštiny

Marie Těšitelová, František Čermák

[Rozhledy]

(pdf)

О новых частотных словарях финского и нидерландского языков / Les nouveaux dictionnaires de fréquence du finnois et du néerlandais

Je pozoruhodné, že již po desetiletí existuje živý zájem o frekvenční slovníky, které kvantifikují jádro slovní zásoby a vztahy mezi jejími jednotlivými prostředky, slovy, jejich tvary, popř. jejich skupinami zvolenými z různých aspektů apod. Tyto slovníky jsou bohatým zdrojem informací — dosud stále nevyčerpaným a poskytujícím další možnosti — o slovní zásobě a jejím vztahu k ostatním jazykovým rovinám, zejména gramatické a sémantické, nepřímo i o myšlení a psychologii člověka. To vše vede jednak k tomu, že jazyky, které takové slovníky dosud nemají, snaží se [326]opatřit si je, vyrovnat se tak řadě jazyků, v nichž tento slovník patří k základním pramenům ke studiu jazyka z hlediska kvantitativního, ale i kvalitativního, jednak k tomu, že pro jazyky, které už frekvenční slovníky mají (srov. češtinu, ruštinu, angličtinu i jiné jazyky), vznikají frekvenční slovníky nové, odborně i technicky dokonalejší, popř. specializované apod. Tyto slovníky se vypracovávají v souvislosti s rozvíjející se metodologií v lingvistice, zvl. s využitím moderní výpočetní techniky, především samočinných počítačů, která umožňuje prohloubit informace přinášené ve frekvenčním slovníku, a to co do rozsahu, hloubky a povahy jednotlivých jazykových jevů a jejich kombinací v systému i v promluvě, v komunikaci.

Do první skupiny frekvenčních slovníků patří v poslední době frekvenční slovník finštiny (dále FSF) z r. 1979 (Pauli Saukkonen - Marjatta Haipus - Antero Niemikorpi - Helena Sulkala, Suomen kielen taajuussanaste - A frequency dictionary of Finnish, Porvoo - Helsinki - Juva, 536 s.; úvod ve finštině (s. 7—21) a v angličtině (s. 23—38) zpracoval P. Saukkonen). Výběrem materiálu, o nějž se slovník opírá, a technikou zpracování řadí se tento slovník mezi frekvenční slovníky, které možno označit jako „moderní”.

Pokud jde o kvalitativní výběr materiálu, lze modernost FSF vidět v tom, že položil důraz na jazyk hromadných sdělovacích prostředků, rozhlasu a tisku, tedy v našem pojetí na jazyk publicistiky (srov. Těšitelová, 1981), a na jazyk odborné literatury, které v období rozvoje vědy a techniky představují důležitou oblast komunikace.[1] Z celkového rozsahu materiálu FSF 408 301 slov připadá na jazyk publicistiky 45,21 % (na jazyk rozhlasu 19,16 %, tisku 26,05 %), na jazyk literatury odborné 43,30 % a umělecké 11,49 %. Veškerý materiál pochází z let 1961—1968.

Z uvedených čtyř skupin textů — stylu publicistického (rozděleného na dvě skupiny, jazyk rozhlasu a tisku), odborného a uměleckého — bylo vybráno 3000 textů, z nich pak pořízeno 2300 výběrů, a to vždy po 5 větách s celkovým počtem 60 slov. P. Saukkonen jménem ostatních spoluautorů správně uvádí, že takové poměrně malé výběry postihují sice heterogennost slovníku (FSF obsahuje 43 670 různých slov — frekvenční slovník češtiny (Jelínek - Bečka - Těšitelová, 1961 (dále FSČ), např. 54 486 různých slov, avšak při rozsahu 1 623 527 slov), zároveň však do něho vnášejí mnoho slov náhodných. Tohoto nedostatku jsou si autoři vědomi, ukazují to např. při hodnocení slov s frekvencí 1 a 2. Klad tohoto postupu je však třeba vidět v tom, že všechny výběry, s nimiž FSF pracuje, jsou stejně dlouhé (Těšitelová, 1977, s. 27n.).

Druhý rys modernosti u FSF záleží v technice jeho přípravy: bylo tu využito samočinného počítače, i když přípravu materiálu i některé práce při zpracování výsledků vykonával člověk, v daném případě pracovníci katedry finštiny a laponštiny univerzity v Oulu. Jde tedy o zhruba shodný postup, který byl zvolen v oddělení matematické lingvistiky Ústavu pro jazyk český při všestranné kvantitativní analýze jazyka tzv. věcného stylu (srov. pozn. 1). Za zvláštní zmínku stojí, že práce na frekvenčním slovníku finštiny jako součást kvantitativního výzkumu současné finštiny (s. 30) podporuje nejen stát, ale i nakladatelství Werner Söderström Osakeyhtiö, které FSF vydalo, a je třeba zdůraznit, že velmi reprezentativním způsobem.

FSF sestává — jak je to u frekvenčních slovníků většinou obvyklé — ze seznamu frekvenčního a abecedního.

Ve frekvenčním seznamu jsou slova uspořádána podle klesající frekvence a provázena těmito informacemi: (1.) rank slova (udávající pozici slova v celém ma[327]teriále, slova se stejnou frekvencí mají pochopitelně týž rank a jsou seřazena abecedně), (2.) základní podoba slova, (3.) určení slovního druhu (u substantiv se odlišují apelativa od proprií), (4.) absolutní frekvence slova (bez jakýchkoli úprav vzhledem k malému rozsahu jednotlivých výběrů), (5.) relativní frekvence, (6.) kumulativní relativní frekvence, (7.) rank slova v čtyřech skupinách materiálu. Zvláštního ocenění zaslouží zřetel k slovnědruhové příslušnosti, kterým se řeší otázka homonymie, a dále rank slova v jednotlivých skupinách textů. Na nich se dobře ukazuje tzv. disperze slova (srov. Juilland, 1964; Těšitelová, 1974, s. 67n.), v tomto případě postižená rankem. Distribuce frekvence slova reprezentovaná rankem se zdá výhodnější a na první pohled lépe informující než několikaciferný výsledek složitého výpočtu koeficientu disperze.

V abecedním seznamu se vedle ranku slova zaznamenává celková absolutní frekvence slova a distribuce absolutní a relativní frekvence ve čtyřech skupinách textů (analogický postup nacházíme i ve FSČ).

Ve výše zmíněné úvodní studii Saukkonenově věnuje se mimo jiné pozornost zastoupení druhů slov v prvních 100 nejvíce frekventovaných slovech ve finštině. Jsou to: (1.) slovesa, např. pomocné být, slovesa modální, ale i plnovýznamové jít apod. (srov. dále data z FSČ), (2.) zájmena (asi 18 různých slov), a to především ukazovací, osobní a neurčitá, (3.) adverbia, mající často funkci spojovacího výrazu, zvl. adverbia časová, (4.) substantiva, nejčastější čas, rok, den atd., (5.) spojky, ev. spojovací výrazy, koordinační častější než subordinační, (6.) adjektiva, jako velký, malý, nový, (7.) číslovky, dva, jeden a druhý. — Pro srovnání uveďme rozložení druhů slov v prvních 100 nejčastějších slovech v češtině (podle FSČ): (1.) zájmena (asi 21 různých), a to ukazovací, osobní, přivlastňovací a neurčitá, (2.) předložky (asi 18 různých), (3.) adverbia, zejména zájmenného původu, např. tak, jak, významu časového (, již, , teď), místního (např. tu, tam, kde apod.), (4.) spojky (celkem 13), (5.) slovesa (sloveso být, slovesa modální, ale i plnovýznamová, jít, vidět, myslet), (6.) substantiva, necháme-li stranou substantivum pán/pan vzhledem k jeho zvláštnímu postavení, život, člověk, práce, ruka, den atd., (7.) adjektiva (pouze 4: celý, jiný, vel/i/, nový), (8.) číslovky, jeden, dva, druhý, (9.) částice ne.

Rozdíly v rozložení slovních druhů v prvních 100 nejčastějších slovech ve finštině a v češtině jsou přirozeně podmíněny typologickými odlišnostmi obou jazyků, aglutinační finštiny a flexívní češtiny. Tak se na rozdíl od češtiny mezi prvních 100 nejčastějších slov ve finštině nedostaly žádné prepozice, ale ani mnohem frekventovanější postpozice, protože jejich funkce jsou tu primárně vyjadřovány pády. Zajímavé jsou však shody v charakteru jednotlivých nejčastějších druhů slov, zvl. plnovýznamových, např. u sloves a zájmen, relativní shoda u některých nejčastějších adjektiv a číslovek, řidčeji u substantiv. Projevují se tu zřejmě vlivy shodné kultury v širokém slova smyslu. — V této recenzi nelze jít v naznačené analýze hlouběji, ale — podle našeho názoru — dobře se tu mimo jiné ukazuje, jaký přínos znamená frekvenční slovník pro studium jazyka a jeho typologie, ale i kultury národa vůbec.

V úvodu k FSF se P. Saukkonen pokusil na základě koeficientu korelace vyjádřit vztahy v jazyce analyzovaných čtyř skupin textů. Podle očekávání jsou zjištěny shody v jazyce textů rozhlasových a tisku (to mluví pro naše řazení obou těchto žánrů — v našem pojetí — do stylu publicistického). Dále nepřekvapuje, že jazyk textů odborných je bližší jazyku publicistiky (tisku) a nikoli jazyku textů uměleckých. Je třeba kladně ocenit, že se ukazuje užití jednotlivých výrazových prostředků a jejich slovnědruhová příslušnost jako stylisticky příznakové a jak se na základě frekvence slov dají rozlišit jednotlivé styly a jejich skupiny. V tom se FSF shoduje i s našimi zjištěními pro češtinu (srov. např. FSČ).

Za zvláštní zmínku stojí ještě fakt, jak autoři FSF využili jeho materiálu k přípravě speciálního slovníku (glosáře) k vyučování finštině jako cizímu jazyku (Michael Branch - Antero Niemikorpi - Pauli Saukkonen, A student’s glossary of [328]Finnish, Porvoo - Helsinki - Juva 1980, 378 s.). Na základě FSF byl pořízen seznam 2000 nejfrekventovanějších slov ve spisovné finštině, uspořádaný jednak podle frekvence (s. 23—200), jednak podle abecedy (s. 203—368). Frekvenční seznam je rozdělen podle klesající frekvence slov do skupin A—R; do nich je zařazeno vždy asi 100 slov s udáním jejich ranku a absolutní frekvence vedle nejnutnější charakteristiky slovnědruhové a gramatické. U každého hesla je uveden ekvivalent anglický, francouzský, německý, maďarský, ruský a švédský (jazyky jsou seřazeny podle anglické abecedy). Tytéž údaje přináší i seznam abecední. Jde o jazykovou pomůcku, která je určena pro učitele i pro žáky (studenty) k zefektivnění vyučování v základních jazykových kursech finštiny, kterým se ve Finsku věnuje velká péče. I když pomůcka tohoto druhu ve vyučování cizím jazykům není sama o sobě novinkou, její zpracování je moderní a na úrovni současné lingvistiky a je velmi dobrým příkladem jednoho z možných a důležitých využití frekvenčního slovníku.

FSF sám představuje významný přínos do oblasti kvantitativní lingvistiky, a to nikoli jen pro Finsko, nýbrž i — zejména metodou zpracování — pro světovou kvantitativní lingvistiku vůbec.

 

Do druhé skupiny dnes vznikajících frekvenčních slovníků lze zařadit dva nové frekvenční slovníky nizozemské. Statistické výzkumy v oblasti nizozemského slovníku mají již svou tradici, první byly vypracovány už před druhou světovou válkou. Je třeba tu jmenovat pionýrskou a dnes těžko dostupnou práci spjatou se jménem J. F. H. A. De la Court (1937); obsahuje přes 23 000 slov z korpusu o jednom miliónu slov. — Zkoumáním větné struktury v nizozemštině a frekvence slova v ní se pro mluvenou nizozemštinu zabýval B. J. Uijlings (1956; první materiál byl však shromážděn již v r. 1937). Frekvenci slov v novinách a románu studovali např. J. A. J. H. M. van Berckel (1962; na materiálu o rozsahu přes 44 000 slov) a W. Martin (1968, 1969). — Další prací z oblasti frekvence slov v nizozemštině je frekvence slov a struktur ve spontánně mluveném jazyce, jejímž autorem je Vlám M. J. De Vriendt-De Man (1969). Měla sloužit pro výuku nizozemštiny jako cizího jazyka. Vlastní frekvenční slovník, otištěný ve třech seznamech, se opírá o 117 000 slov a tvoří necelou třetinu práce; více než dvě třetiny jsou věnovány metodologickým otázkám týkajícím se sestavování frekvenčního slovníku a vyhodnocování jeho statistických dat.

V posledních letech se k uvedeným frekvenčním slovníkům nizozemštiny přiřadily další dva: první s názvem Woordfrequenties in geschreven en gesproken Nederlands (red. P. C. Uit den Boogaart, Utrecht 1975), dále WF (Frekvence slov), druhý s názvem Spreektaal, Woordfrequenties in gesproken Nederlands (red. E. D. de Jong, Utrecht 1979), dále ST (Mluvený jazyk). Slovníky se shodují co do metody, liší se však povahou jazykového materiálu. První se jen v menší míře opírá o jazyk mluvený, druhý se mu věnuje výlučně.

WF reprezentuje výzkum současné nizozemštiny v období jediného roku (od poloviny r. 1969 do poloviny r. 1970) v šesti skupinách textů: denní tisk a časopisy, beletrie, literatura populární a vědecká a mluvený jazyk (celkem 720 000 slov). Jazyk mluvený se dělí do dvou skupin, protože byl získán zpoloviny od mluvčích s vyšším vzděláním, přičemž se předpokládá projev spisovný, zpoloviny od mluvčích se vzděláním nižším, projev s předpokládanými prvky nespisovnými. Slovník jako celek se skládá z 5 seznamů (některé z nich se ještě dělí dále), především abecedních:

Abecední seznam tvarů (A1—A3) je rozdělen do tří částí (o celkovém rozsahu zhruba 80 000 tvarů): První, nejrozsáhlejší část uvádí slovní tvary s frekvencí vyšší než 1, avšak omezené délkou slova (maximálně 25 grafémů), druhá část pak obsahuje tvary s frekvencí 1 s touž maximální délkou slova. Do třetí části jsou zařazeny všechny tvary s délkou nad 25 grafémů; jejich frekvence je zpravidla nízká. Uvedené seznamy mají co nejvěrněji obrážet lexikální strukturu textu. Proto jsou tu např. [329]zvlášť uvedeny tvary s velkými písmeny, aby se zjistilo, jak které slovo stává na začátku věty. Podobně má zachycení rozdělovacích znamének na konci řádku sloužit ke studiu pravidel dělení slov v nizozemštině apod. Tyto jevy se ve frekvenčních slovnících obvykle nezaznamenávají, protože ve většině jazyků jsou natolik formální, že data o jejich frekvenci jsou minimálně využitelná.

Za jednotku, tvar, resp. slovo považují se ve WF i zkratky, víceslovné cizojazyčné citáty, spojení jména a příjmení. U každého slova (tvaru) je uvedeno pořadí, distribuce frekvence v pěti skupinách psaných textů a v obou skupinách jazyka mluveného. Nakonec následuje celková frekvence slova v jazyce psaném a mluveném. — Trojciferný kód uváděný u každého slova má funkci klasifikační. První číslice udává slovní druh tvaru a slouží mimo jiné ke studiu některých typů a distribuce homonymie. Druhá číslice označuje, v které sémanticko-syntaktické funkci je slova užito. (První dvě číslice poskytují dohromady přes 70 typů informace.) Třetí číslice identifikuje morfologické kategorie, tvar, osobu, číslo, popř. pád. Slovník tedy značně překračuje běžnou úroveň informací uváděných dosud ve frekvenčních slovnících. V tomto jinak relativně úplném popisu postrádáme snad jen rozlišení funkce adjektiva v pozici atributové a predikátové; je zachycena jen nepřímo a neúplně některými dalšími indexy.

Abecední seznam hesel, lexikálních jednotek (lemmat) (B) uvádí jednotky s frekvencí vyšší než 5 (asi 8500 slov); u nich je zaznamenána distribuce frekvence podle stylových skupin a slovní druh.

Frekvenční seznam (C) obsahuje tvary slov uspořádané podle klesající frekvence. Ke škodě věci musili autoři z ekonomických důvodů omezit rozsah seznamu na 1300 tvarů pro každou skupinu textů.

Poslední a rozsahem menší seznamy WF jsou určeny již ke specializovanějšímu studiu nizozemského slovníku. Uvádějí (seznamy D) např. frekvenci jednotlivých trojciferných kódů, které v abecedních seznamech doprovázejí lexikální jednotky, popř. jejich tvary (bez vztahu ke konkrétnímu slovu nebo jeho tvaru, ale i se zřetelem k tomu) a činí ze slovníku důležitou pomůcku i pro gramatiku. Dále se uvádí, jak často se vyskytují nejrůznější funkce u určitého tvaru slova obecně i v různých stylech. — Závěrečný seznam (E) obsahuje tzv. frekvenční třídy, tj. informaci o tom, kolik slovních tvarů má v daném textu určitou frekvenci. Tento seznam přímo vybízí ke studování druhého Zipfova zákona.

WF je doplněn i stručným technickým popisem postupu, jehož bylo při sestavování slovníku užito, práce s počítačem apod. Vedle ilustrativního seznamu instrukcí k zakódování indexů v textu, slovníčku technických termínů apod. zaujme uživatele i kapitola o spolehlivosti pramenů, o něž se WF opírá. Jde jednak o možné chyby vzniklé při transkripci, zpracovávání apod. (zvláště vlivem lidského faktoru), jednak o shody zjištěné frekvence s realitou. Upozorňuje se rovněž na omezený rozsah korpusu a na důsledky plynoucí z toho pro posuzování absolutní frekvence slov, zejména nižší.

Již v úvodu WF se podotýká, že pozornost, která se v něm věnuje jazyku mluvenému, neuspokojuje, a že se proto zároveň připravuje samostatný slovník ST. Tento slovník se metodologicky a zčásti i autorsky shoduje s WF. Liší se však od něho zejména propracovanější apriorní klasifikací analyzovaných textů. O jejich povaze obecně rozhodovaly čtyři nejazykové proměnné: pohlaví, věk, vzdělání (povolání) a jazyková situace. 16 skupin informantů je vzhledem k tomu rozděleno do 4 skupin: (1.) muži a ženy ve stejném poměru, (2.) věková skupina „mladý“ (20—24 let) a „starý“ (50—54 let), (3.) vzdělání „nižší“ a „vyšší“ (uvnitř ještě složité dělení podle řady kritérií na 6 typů vzhledem k povolání), (4.) „formální“ a „neformální situace“. Formální interview se skládalo z diskuse podle předem daných otázek tematicky zaměřených na okruh vzdělání obecně a na profesi dotazovaného zvlášť. Neformální interview bylo tematicky volné, pro dotvoření atmosféry obvyklosti si [330]dotazovaný měl k setkání přivést vlastního známého. U obou typů rozhovorů byl informantům sdělen účel nahrávky až po jejím uskutečnění. Tím byla lépe zaručena přirozená forma jazykového projevu. Z hlediska sociolingvistiky je tu zajímavé zjištění, že původ mluvčího, místo bydliště i jiné otázky regiónu se mezi relevantní proměnné nedostaly, třebaže nářeční situace v Nizozemí je víc než pestrá, a to nejen co do rozdílu mezi Holanďany a Vlámy. Autoři ST volili své informanty pouze z Amsterdamu proto, že chtěli uniknout této nářečně složité situaci a že vzorek lidí touto situací nejméně ovlivněný lze nalézt jen ve velkém městě.

ST je založen na korpusu o 120 000 slovech, frekvence slov je uváděna pro každou ze 16 sledovaných skupin (daných vždy jinou konfigurací proměnných) zvlášť. Vlastní uspořádání jednotlivých frekvenčních seznamů je obdobné jako u WF. — Úvod tohoto slovníku je ještě doplněn metodologicky cenným přehledem zásad pro převod jazyka mluveného do podoby psané. I zde se uplatňovala zásada maximálně zachovat zvláštnosti mluvčího a konkrétního úzu (neopravovaly se např. některé chyby mluvčího, pokud neměnily smysl nebo formu slova).

Také oba nové nizozemské frekvenční slovníky jak metodologicky, tak i bohatstvím informací, zvláště gramatických, znamenají významný přínos pro kvantitativní lingvistiku.

 

LITERATURA

 

VAN BERCKEL, J. A. J. H. M.: Onderzoek woordfrequentie: Resultaten kranten. Rapport R. 642/2. Stichting Mathematisch Centrum. Amsterdam 1962.

DE LA COURT, J. F. H. A.: De meest voorkomende woorden en woord combinaties in het Nederlandsch. Batavia 1937.

DE VRIENDT-DE MAN, M. J.: Frequentie van woorden en structuren in spontaan gesproken Nederlands. Brussel 1969.

JELÍNEK, J. - BEČKA, J. V. - TĚŠILOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

JUILLAND, AL. - CHANG-RODRIQUEZ, E.: Frequency dictionary of Spanish words. The Hague 1964.

MARTIN, W.: De inhoud van krant en roman. Een frequentieonderzoek. Antwerpen 1968.

SANGERS, A. G.: 724 woorden, basis van het geschreven nederlands. Amsterdam 1969.

TĚŠITELOVÁ, M. Otázky lexikální statistiky. Praha 1974.

TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Lingvistické příručky — UK. Praha 1977.

TĚŠITELOVÁ, M.: On the language of the present-day publicist prose from the quantitative point of view. PSML, 7, 1981, s. 9—26.

UIJLINGS, B. J.: Praat op Heterdaad. Assen 1956.


[1] V Ústavu pro jazyk český ČSAV kolektiv oddělení matematické lingvistiky za vedení M. Těšitelové prováděl v l. 1967—1980 všestrannou kvantitativní analýzu současné psané a mluvené spisovné češtiny opírající se o 540 000 slov, a to z textů publicistických (33,33 %), odborných (naučných) (55,56 %) a administrativních (11,11 %).

Slovo a slovesnost, ročník 42 (1981), číslo 4, s. 325-330

Předchozí Milena Rulfová: O konotaci v gramatice

Následující Jarmila Panevová: Lingvistika a informatika