Časopis Slovo a slovesnost
en cz

Fonologická statistika na základě frekvence slov

Marie Těšitelová

[Kronika]

(pdf)

Фонологическая статистика на основе частот слов / La statistique phonologique sur la base de la fréquence des mots

Názornou a poučnou ukázkou toho, jak lze starších statistických prací, zvláště materiálových, využít pro nová studia tím, že jsou z nových hledisek zpracovány novou technikou, a to samočinnými počítači, je práce A. Hooda Robertse A Statistical Linguistic Analysis of American English. Vyšla r. 1965 v holandském nakladatelství Mouton (v řadě Janua linguarum, Series practica VIII) v rozsahu 437 stran; z toho s. 9—65 uvádí zejména plán celé práce a zhodnocení výsledků studia, ostatek tvoří dodatky, seznamy (celkem 22), které představují vlastní jádro práce. Vzhledem k zaměření našeho časopisu soustředíme se zde na stránku metodologickou, která si zaslouží zvláštní pozornosti.

Cílem Robertsovy práce bylo zjistit frekvenci fonémů v běžné americké angličtině na dostatečně velkém souboru slov, který byl pořízen na principu frekvenčním. Po prostudování základních frekvenčních slovníků a seznamů slov pro angličtinu, jako jsou např. slovníky E. L. Thorndika [101]a jeho spolupracovníka I. Lorge, práce G. K. Zipfa ap., a po jejich zhodnocení, pokud jde o rozsah a charakter základního materiálu a jeho jednotek, rozhodl se autor pro známý slovník E. Horna A Basic Writing Vocabulary z r. 1926 (Iowa). Slovník, založený na materiálu z korespondence soukromé a obchodní, obsahuje 5,136 816 slov (resp. tvarů slov) a po doplnění tvarů, které tu byly původně vynechány, asi 15,000 000 slov, z toho pak 10 065 slov různých (lexikálních jednotek). Slovník Hornův vyhovoval autorovi zejména pro dostatečný rozsah materiálu i volbu jednotky, tj. tvar slova, i zásady její excerpce a dále i proto, že obsahuje běžnou angličtinu, jak si ověřil srovnáním s nejnovější prací toho druhu (J. Schonell - I. G. Meddleton - B. A. Shaw, A Study of the Oral Vocabulary of Adults, Brisbane, University of Queensland Press 1956).

Všechna slova, která obsahuje slovník Hornův, převedl jediný informant M. Donald Green, student anglistiky na universitě ve Wisconsinu, mluvící severní centrální variantou obecné americké angličtiny (general American), do větných schémat a ta byla zaznamenána na magnetofonový pásek. Podle tohoto záznamu byla pak slova přepsána fonologicky (podle zásad W. N. Francise The Structure of of American English, New York 1958) a kromě toho byly u nich doplněny i údaje o etymologii slov (pramenem tu byl Webster’s New World Dictionary). Údaje fonologické i etymologické byly zaznamenány na děrné štítky IBM 026, utříděny a seřazeny podle frekvence; dále pak byly přepsány na magnetickou pásku CDC 1604 a na základě programu v jazyce FORTRAN zpracovány na počítači CDC 1604. Výsledkem práce počítače je zmíněných 22 seznamů, které obsahují řadu údajů kvantitativních o fonologické stránce angličtiny; v knize jsou otištěny většinou v úplnosti.

Celkový poměr fonémů ke grafémům je v angličtině 32 : 26; z 10 065 slov v slovníku Hornově na 70 979 grafémů připadá 66 534 fonémů.

O etymologickém složení anglických slov, která jsou rozdělena po decilech, přináší údaje především první seznam; v procentech je tu vyjádřen poměr mezi slovy původu anglosaského, francouzského, latinského apod. V dalších seznamech (II.—IV.) je uvedena s tímto zřetelem i frekvence fonémů; kromě frekvence absolutní a relativní uvádí se u jednotlivých fonémů i střední chyba (Standard Error SE) daná vzorcem

 

kde p je relativní frekvence fonému, q celková relativní frekvence všech ostatních fonémů a N celková frekvence v textu.

Délka slov (seznam VI—VIII) je udána jednak ve fonémech (průměr 6,610, se zřetelem k frekvenci 3,625), jednak ve slabikách (průměr 2,194, se zřetelem k frekvenci 1,309).

Údaje o frekvenci tzv. kanonických forem fonémů, tvořených sledem konsonantů (C), vokálů (V) a semivokálů (S), přinášejí seznamy IX—XI. V 10 065 slovech bylo celkem 1790 různých kanonických forem, z nichž např. 298 slov mělo formu CVCC, 16 slov formu VCC, ani jedno slovo nemělo formu CCV.

Sled dvou fonémů a pravděpodobnosti jejich výskytu nacházíme v seznamu XII (výtah v tabulce č. 6), pravděpodobnosti výskytu tří fonémů na začátku slov v seznamu XIII.

Kromě údajů o frekvenci, ev. střední chybě jsou do seznamů dále pojaty i údaje o entropii a redundanci, a to fonémů (sezn. XIV), délky slov vyjádřené ve fonémech (sezn. XV) a ve slabikách (sezn. XVI). Zajímavé je, že u entropie slabik nebyl maximální počet fonémů nikdy větší než 7, u fonémů pak nikdy větší než 15.

Frekvenci souhlásek a jejich skupin se zřetelem k jejich pozici v slově (postavení počáteční, koncové a intervokalické, které ovšem není rovnocenným doplňkem prvých dvou, jak autor sám upozorňuje), uvádějí seznamy XVII—XXI. Např. z 10 065 slov v souboru začíná 8103 souhláskou nebo souhláskovou skupinou, celkový počet souhlásek a jejich skupin je 60, tedy poměrně malý.

[102]Kladem a podle mého názoru i opravdu novem Robertsovy práce je především to, že studuje frekvenci fonémů na základě frekvence tvarů slov. Dosavadní statistiky fonémů opírají se většinou jen o tvary slov zjištěné v textu, ovšem bez frekvenčního hodnocení. Avšak další Robertsův postup, tj. uvádění těchto slov do větných schémat a jejich fonologický přepis na základě výslovnosti jediného informátora, zdá se značně problematický a zejména jednostranný. Snaha o zachování jednoty vede k tomu, že se údaje týkají „idiolektu“ jediné osoby.

Vzhledem k tomu, že pro soubor byly vypočteny pravděpodobnosti výskytů jednotlivých fonémů i jejich skupin, bylo možno stanovit i entropii vyšších řádů,[1] nikoli jen H0, předpokládající stejnou pravděpodobnost výskytu jednotlivých fonémů. Měl-li autor k dispozici samočinný počítač, nebyly by jistě tyto údaje technicky nesplnitelným úkolem.

Jinak je práce instruktivním dokladem toho, jak lze materiálu nashromážděného k studiu jazykových jevů z hlediska jen statistického pomocí moderní techniky využít k dalšímu studiu s doplněním nových hledisek a kritérií.


[1] Srov. např. zde M. Ludvíková - J. Kraus, Kvantitativní vlastnosti soustavy českých fonémů, SaS 27, 1966, 334n.

Slovo a slovesnost, ročník 28 (1967), číslo 1, s. 100-102

Předchozí Pavel Novák: Překladový sborník „Matematičeskaja lingvistika“

Následující Marie Zichová: Rentgenologický výzkum artikulace českých vokálů