Časopis Slovo a slovesnost
en cz

K výstavbě fonologické statistiky

Bohumil Trnka

[Články]

(pdf)

-

Úkolem fonologické statistiky je zjistit frekvenci fonémů a fonologických protikladů jednak v lexikální zásobě slov a morfémů daného jazyku, jednak v jeho souvislých promluvách, textech. V prvém případě, v kterém je podkladem zkoumání slovní a tvarový inventář jazykového systému, směřujeme ke stanovení frekvence jednotlivých fonémů a fonologických protikladů, které jazyk potřeboval, aby si vytvořil celou svou zásobu slovní a tvarovou. Takovýto průzkum je důležitým doplňkem každého kvalitativního rozboru fonologické struktury jazyka, ježto pro stanovení fonologické jeho charakteristiky je důležité zjistit nejen pouhou existenci jeho fonologických prvků, nýbrž i to, jak je jich využito, jaká je jejich frekvenční produktivnost. Teprve tímto zjištěním nabývají fonémy a fonologické protiklady přesné kvantitativní relevance, bez níž by fonologický popis jazyka byl neúplný. Zjišťování frekvenční produktivnosti musí býti vedeno tak, aby zahrnulo všechny [60]fonologické rysy, kterými jazykový systém disponuje. Slovní materiál je nutno rozdělit podle počtu slabik a každou skupinu stejnoslabičných slov rozlišit na typy podle počtu a kombinací fonémů, z nichž se skládají. Roztřídíme-li si takto slovní zásobu, je poměrně snadné zjistit produktivnost všech fonologických prvků jazyka v různých jejich postaveních ve slově jak pro jednotlivé typy slovní, tak pro úhrn všech typů. Výsledky tohoto rozboru nabudou ovšem větší zajímavosti teprve tehdy, až bude možno srovnávat větší počet jazyků. K přesné basi srovnávacího průzkumu frekvenčního snažil se zakladatel fonologie N. Trubeckoj dojíti tím, že požadoval, aby se frekvence měřila poměrem skutečné produktivnosti k maximální produktivnosti, v daném jazykovém systému theoreticky možné. Výpočet této maximální produktivnosti setkává se však ještě se značnými nesnázemi, jak Trubeckoj sám přiznává, a musíme se tudíž spokojiti prozatím jen srovnáváním skutečné produktivnosti fonémů a jiných fonologických živlů, které ostatně již samo o sobě je brzděno naší neúplnou znalostí fonologických a morfologických struktur. Zdálo by se vůbec, že bychom měli počkat s kvantitativním průzkumem jazyků až po rozřešení všech problémů kvalitativní analysy, ale tento závěr by se neshodoval se skutečnými potřebami vědeckého bádání, v kterém dosahujeme hloubky a šíře jen po částech a postupně. Statistický průzkum fonologické stavby slovní a tvarové je ostatně i pro jediný jazyk úkol tak rozsáhlý, že jej musíme omeziti již z tohoto důvodu na menší úseky, na př. na slova jednoslabičná nebo na jisté významové oblasti. Výhodou omezeného slovního materiálu je, že můžeme frekvenční průzkum podniknouti pro několik jazyků zároveň a přispěti jím k dalšímu rozvoji fonologické statistiky třeba účinněji než prací široce sice založenou, ale omezující se na jediný jazyk. Důležitým požadavkem, který je nutno zvlášť zdůrazniti, je, aby zkoumaný jazykový materiál byl v takovýchto monografiích otištěn úplně, neboť jen tak lze autorovy výsledky kontrolovati a na základě jich postoupit dále. Teprve až budeme míti několik studií postupujících přesnou a jednotnou metodou, budeme moci přistoupiti k systematickému kvantitativnímu průzkumu fonologické struktury jazyka v celé jeho zásobě slovní a tvarové.

Neméně důležitá je výstavba fonologické statistiky promluvy, která vychází ze zkoumání souvislých textů. Číselné výsledky tohoto průzkumu se liší především podle rozsahu textů. Je-li rozsah textů malý, jsou tyto výsledky velmi variabilní a teprve v rozsáhlých textech redukují se na nejmenší míru. Hranice této poměrné frekvenční konstantnosti leží pro různé fonologické živly v různé výši a nutno ji pro každý z nich zvlášť stanovit. Jde-li na př. o to, abychom určili frekvenční pořadí fonémů daného jazyka bez ohledu na jejich posice ve slově, je zřejmé, že toto pořadí bude již při poměrně malém rozsahu textů kolísat jen nepatrně, kdežto stanovení výskytového pořadí fonémů v jisté posici ve slově si vyžádá mnohem rozsáhlejšího kontextového materiálu. Existenci bodu poměrné frekvenční konstantnosti lze si vysvětliti tím, že teprve v rozsáhlejším textovém materiálu se rozdělují slova na dvě skupiny: na kádr slov, která se neustále opakují, a na slova, která se v něm vyskytují jednou nebo několikrát. Čím jsou zkoumané texty delší, tím ostřejší jsou hranice mezi oběma skupinami slov a tím více variabilní živly ustupují do pozadí. Konstantní kádr slov je pro každý jazyk charakteristický. V němčině na př. 66 nejhojnějších slov vyplňuje téměř celou polovinu (49,62%) slovního materiálu textů o celkovém počtu [61]11 milionů slov, 320 slov téměř tři čtvrtiny (72,25%) a 1.100 slov téměř devět desetin (87%). O frekvenci fonémů a fonologických živlů vůbec v německých promluvách rozhoduje tudíž do značné míry oněch 1.100 slov. V češtině, jazyce mnohem synthetičtějším než němčina, leží bod výskytové konstantnosti fonémů výše než v němčině, protože slova se v ní opakují mnohem méně. V novinářské češtině, jejíž slovník zkoumal r. 1938 statisticky Josef Korejs a Helena Korejsová, tvořilo 25 nejčastějších slov (v různých svých mluvnických tvarech) 25% veškerého kontextového materiálu, 50 slov 30,8%, 300 slov 49,62% a 1.000 slov 72,25%[1]). Je jasné, že i v české promluvě určují tato slova do značné míry frekvenční pořadí fonémů, které se příliš nemění, překročí-li texty jistý rozsah.[2]

Druhým činitelem ve fonologické statistice je styl (a obsah) promluvy. O vztahu mezi stylem a výskytem fonologických živlů nelze pochybovat. Víme na př., že v angličtině hojný výskyt fonému ə charakterisuje hovorový styl jazyka a německý naukový sloh je charakterisován opět větším výskytem vícečlenných souhláskových skupin na švu slovních členů komposit, než jaký je ve slohu hovorovém a lidovém, v němž je komposit mnohem méně (srov. Trubeckého Grundzüge der Phonologie, str. 231). Vliv stylu na frekvenci fonologických živlů bylo by možno zjistit zkoumáním textů dvou různých stylů, které by měly stejný počet slov.

Zjištění poměrné frekvenční konstantnosti toho neb onoho fonologického živlu umožňuje ukázat, jak se jeho frekvenční relevance mění podle výskytu v různých kontextech. Stanovíme-li na př., že ve stavbě anglické promluvy je nejhojnější samohláska i, nabývá větší důležitosti zjištění, že v té nebo oné promluvě se vyskytuje i na př. až na pátém místě frekvenčního pořadí samohlásek. Tato nižší frekvence je pro daný text charakteristická.

Mimo stanovení fonologické frekvenční konstantnosti je důležité i zjištění periodicity fonémů nebo fonologických protikladů, a to jak průměrné, tak skutečné. Metoda zjišťování periodicity je celkem jednoduchá. Vyskytuje-li se na př. v českých textech o 10.000 slabikách slabikotvorné r celkem stokrát, činí průměrná jeho periodicita v oněch textech celkem 1%, t. j. 1 na každých 100 slabik. Skutečná periodicita probíhá však v textu různě a lze ji nejlépe znázornit diagramem, který by ukázal, kolika slabikami jsou výskyty onoho r v průběhu textu oddělovány. Podobně lze stanoviti průměrnou i skutečnou periodicitu samohláskové kvantity, souhláskových shluků, jednoslabičných slov a pod. Zajímavé výsledky by dalo i srovnání periodicity několika fonologických živlů promluvy, aby se zjistily vzájemné závislosti jejich výskytů (na př. v češtině fonémů t—ť, d—ď, n—ň).

Je zřejmé, že srovnávací fonologickou statistiku bude možno systematicky vybudovat teprve tehdy, až budou pořízeny monografie o lexikální i promluvové statistice fonémů a fonologických protikladů různých jazyků podle jednotné metody. [62]Dosavadní práce z jazykové statistiky[3] se opírají celkem o malý materiál a ty, které se zakládají na průzkumu rozsáhlého materiálu (jako Kaedingův „Häufigkeitswörterbuch der deutschen Sprache“) nevyhovují vědeckým požadavkům a nemohou být proto podkladem pro zkoumání další. O výsledcích svého vlastního průzkumu na textech asi o 11.000 slov podám zprávu na jiném místě.

Za nynějšího stavu bádání zdá se být předčasné mluvit o zákonech fonologické frekvence, které by platily pro všechny jazyky; byly však již učiněny pokusy i v tomto směru. Již r. 1892 francouzský psycholog B. Bourdon srovnával ve spise „L’ expression des émotions et des tendances dans le langage“ osm evropských jazyků, mezi nimi keltštinu, madarštinu a ruštinu, a shledal, že největší výskyt mají ve všech těchto řečích tytéž souhlásky, a to v tom poměru, že se zubnice vyskytují třikráte častěji než retnice a ty opět dvakráte častěji než souhlásky zadopatrové. Tuto shodu ve frekvenci hlásek v oněch osmi jazycích prohlásil pak Bourdon za obecný zákon lidské řeči. Výklady Bourdonovy jsou sotva přesvědčivé. Pochybné jsou i názory van Ginnekenovy, odmítnuté Trubeckým, podle nichž frekvence fonémů závisí na rozdílech rasových (srov. na př. jeho spis „Ras en Taal“, vydaný v Amsterodamu r. 1935). Mnohem zajímavější jsou frekvenční theorie amerického jazykozpytce Zipfa. Ve své knize The Psycho-Biology of Language (1933) Zipf podle zprávy N. Trubeckého v 2. roč. Slova a slovesnosti dovozuje, že součin frekvenčního čísla kontextových slov umocněného na druhou (b2) a počtu kontextových slov o témže frekvenčním čísle (a) je pro daný text vždy konstantní. Vyskytuje-li se na př. v témže textu 1.000 slov jedenkrát, vyskytuje se v něm 250 slov dvakráte, 110 slov třikráte, 63 slov čtyřikráte atd. podle formule ab2 (1.000 × 1 = 250 × 22 = 110 × 32 atd.). Ačkoli tato formulace, kterou prý Zipf vyzkoušel i na textech českých, není jistě zcela přesná, zdá se, že je autor na správné cestě, uvedl-li ve vzájemnou zá[63]vislost počet slov téže kontextové frekvence s jejich frekvenčním číslem. Je zřejmé, že čím vyšší je frekvenční číslo jistých slov v kontextu, tím menší je v něm počet takových slov, t. j. vysoká frekvence slov je vyvážena jejich malým počtem a naopak, jejich malá frekvence velkým jich počtem. V Zipfově mathematické formulaci chybí však zřetel k rozsahu textu jako činiteli, na kterém závisí frekvence slov. Její aplikace na promluvy o malém počtu slov selhává. Ale ani po tomto doplnění by formulka asi neměla obecnou platnost, ježto jazyky jsou strukturálně příliš různé, aby se frekvenční poměry slov v kontextu daly jí jednotně zahrnouti. Mimo toto pravidlo formuluje Zipf v uvedeném spise další obecný zákon, podle něhož je výskytové číslo slov v nepřímém poměru k jejich délce, t. j. čím delší jsou slova, tím řidčeji se vyskytují a čím jsou kratší, tím hojnější. Ani toto pravidlo při své strohé mechaničnosti není ani zcela správné ani obecné — není na př. možno tvrdit, že v angličtině řídce se vyskytující slova jsou vždy delší než slova častější —, ale obsahuje přece zrnko pravdy, ježto se zřejmě uplatňuje obecná tendence, aby se v jazykových promluvách opakovaly častěji jen úseky relativně krátké. V každém jazyce zájmena, předložky, spojky, některá příslovce a pomocná slovesa, která se vzhledem k své funkci opakují, zabírají zpravidla jen krátké úseky ze sledu fonémů, z nichž se promluva skládá, protože se tím usnadňuje její funkce a účinnost. Výskyt slov závisí tedy především na jejich funkci a druhu, při čemž každý jazyk má svou vlastní normu. Jak se jazyky po této stránce liší, ukazuje dobře srovnání češtiny s francouzštinou. V češtině jsou slova typu a, ab, ba (na př. u, od, za) gramatického rázu. Plnovýznamná slova typu a se nevyskytují (nehledíme-li k pojmenování samohláskových písmen) a slova typů ab, ba (na př. úd, , os) se drží v jazyku jen svou morfologickou souvislostí s tvary, které mají větší počet fonémů (j. údu, údy, oře, osa). Ve francouzštině však i plnovýznamná slova se mohou skládati jen z jednoho nebo dvou fonémů, takže mezi slovy gramatickými a jimi není po této stránce rozdílu (srov. les—lait, toi—doigt, elle—aime). Mezi výskytem slova a jeho délkou není bezprostřední souvislost. Oba jevy jsou průvodné a jejich společná příčina leží ve struktuře jazyka a funkci slovního druhu. Hojné zkracování dlouhých cizích slov v angličtině není působeno mechanicky jejich frekvencí, nýbrž tendencí asimilovati cizí slova struktuře slov domácích (srov. pram = perambulator, car = carriage, Mespot = Mesopotamia).

Důležitá je tendence, na kterou poukázal Trubeckoj ve svých „Grundzüge der Phonologie“ (str. 235—236), že v nejrůznějších jazycích bezpříznakové fonémy mají celkem větší frekvenci než příslušné fonémy příznakové. V češtině, angličtině a ruštině párové znělé souhlásky vyskytují se méně hojně než příslušné souhlásky neznělé a podobně měkké párové souhlásky v ruštině se vyskytují méně často než odpovídající tvrdé. Z tohoto pravidla jsou však individuální odchylky. V českých promluvách na př. je znělé h hojnější než neznělé ch, v angličtině znělé th hojnější než th neznělé a v ruštině se vyskytuje podle Trubeckého měkké l, které je příznakovým členem korelace měkkosti, hojněji než tvrdé l. Tyto výjimky z tendence, která jistě nespočívá na pouhé náhodě, musíme vykládati speciálními příčinami. Tak převrácená kontextová frekvence (a patrně i lexikální produktivnost) znělostního páru ch/h v češtině souvisí se zvláštní a kratší jeho historií ve vývoji našeho jazykového systému. Větší frekvence znělého th v anglické promluvě souvisí nepochybně s tím, [64]že se objevuje v zájmenech hojně se vyskytujících a ve slovech zájmenného původu (jako thou, this, that, there, then), v kterých bylo původně th neznělé. Lexikálně je však neznělé th produktivnější než th znělé. Větší frekvenci měkkého l v ruštině (v lexiku nebo promluvách?) uvádí Trubeckoj ve vztah s neutralisací měkkosti, k níž u tohoto páru dochází jen před e, nikoli též jako u ostatních párů před apikálami, sykavkami a měkkými souhláskami. Protiklad ł/ľ má snad menší časovou hloubku než ostatní páry (na př. t/ť, s/š atd.). Trubeckého formulaci této tendence je snad potřebí doplniti v tom směru, že je jednak nutno rozlišiti kontextovou frekvenci od lexikální produktivnosti fonémů, jednak, že je spíše mluviti o fonémech fundujících a fundovaných (srov. t/ť, d/ď, n/ň v češtině) než jen o bezpříznakových a příznakových.

V závěru k tomuto pojednání chtěl bych připomenouti, že statistika zpřesňuje nebo objevuje problémy kvalitativní povahy zvláště tehdy, jestliže se zkoumaná skutečnost vymyká přímé analysi kvalitativní pro svou přílišnou složitost nebo různorodost. Její heuristická hodnota spočívá v tom, že odkrývá rozpor mezi číselnými vztahy, které očekáváme, a čísly skutečnými a tím jsme vedeni k revisi celého problému. Teprve výkladem číselných vztahů dospíváme k úplnému porozumění zkoumané skutečnosti. Statistický průzkum není sám o sobě vědou, nýbrž jen methodou, a tvrdil-li T. H. Buckle, autor kdysi známých, nyní již zastaralých „Dějin anglické civilisace“, že statistika je v témže poměru k dějinám, jako mathematika k přírodním vědám, přecenil její význam. Jako metoda, zaměřená k řešení problémů kvalitativní povahy, je však i ve fonologii nepostradatelná a její vybudování je jedním z úkolů dnešní linguistiky.


[1] Podle Kaedingova frekvenčního slovníku tvořilo již 15 nejhojnějších slov německých 25% veškerého kontextového materiálu, 320 nejhojnějších slov 72.25%.

[2] Tato okolnost je důležitá pro metodiku vyučování cizím jazykům. Plyne z ní, že žák má v prvé řadě aktivně ovládat a kombinovat slova, která tvoří konstantní kádr promluvy a mimo ně jen ty výrazy, které jsou důležité vzhledem k jeho speciálnímu cíli. Slova literární nebo vůbec ta, která se vymykají vyučovacímu cíli, náleží k t. zv. pasivnímu slovníku žákovu. Výskytová konstanta vysvětluje rovněž to, že systémy ideografického písma, které kladou veliké požadavky na lidskou paměť, jsou vůbec prakticky možné. — Zdá se, že i pro jazykovou diachronii má pojem konstantního kádru promluvy zásadní význam.

[3] Z českých prací je uvésti tyto: V. Mathesius, La structure phonologique du lexique du tchèque moderne. TCLP I, 1929, str. 67—84. Týž, Zum Problem der Belastungs- und Kombinationsfähigkeit der Phoneme. TCLP IV, 1931, 148—152. — B. Trnka, A Phonological Analysis of Present-Day Standard English. Praha 1935. — Josef Vachek, Poznámky k fonologii českého lexika. Listy filologické Oldřichu Hujerovi k šedesátým narozeninám (Praha 1942), str. 395—402. — Kratší staroanglický text s jeho novoanglickým překladem srovnal po stránce frekvence slov, slabik a souhláskových skupin Jiří Krámský v Mathesiově sborníku, ČMF 28, 1942, str. 376 n. — Pro úplnost uvádím také starší hláskové statistiky, ačkoliv mají pro fonologii jen malý význam. První jazykozpytec, který věnoval pozornost kontextovému výskytu hlásek (r. 1874), byl William Dwight Whitney, profesor sanskritu a srovnávacího jazykozpytu na Yaleské universitě. Za základ svého počítání si zvolil 10.000 hlásek obsažených v 10 úryvcích z děl pěti básníků a pěti prosaiků z 10 různých údobí. O výskytu hlásek se zmiňuje také A. Schleicher ve svém díle Die deutsche Sprache (1888, str. 209 n.). — Pro stenografické účely zabýval se frekvencí slov a hlásek J. Kindermann v článku otištěném v německém Archiv für Stenographie (1883), do něhož přispěl i Jespersen svým posudkem o těsnopisné soustavě anglického fonetika H. Sweeta. T. A. Reed v Pitmanově časopise The Speller (1895) a americký stenograf G. Dewey (Relativ [sic!] Frequency of English Sounds 1923). Kaedingův frekvenční slovník německého jazyka (1898) je výsledkem kolektivní práce německých těsnopisců. U nás pro potřeby těsnopisné podnikli rozsáhlejší průzkumy František Hradilík pro češtinu a Antonín Holas pro slovenštinu na podkladě souvislých textů o 10.000 slovech (Těsnopisné Listy roč. 51 a 52). Statistická práce Josefa Sedláčka, která zůstala v rukopise, opírá se o bohatší materiál (srov. B. Trnka, Pokus o vědeckou theorii a praktickou reformu těsnopisu. Praha, 1937). — O amerických pracích podniknutých z důvodů pedagogických, psychologických a technických podává zprávu Ch. H. Voelker v článku Phonetic Distribution in Formal American Pronunciation (J. A. S. A., 1934, str. 242 n.) a o cizojazyčných slovnících založených na frekvenci slov informuje Jar. Kopáč ve Tvořivé škole (roč. 9, str. 63—65). — Frekvenci maďarských samohlásek zjišťuje T. Tarnóczy podle zprávy T. Tamáse v časopise Lingua (I, str. 253). Po fonetické stránce zkoumala frekvenci českých hlásek Věra Mazlová v článku „Jak se projevuje zvuková stránka češtiny v hláskových statistikách“ (Naše řeč 30, 101—111 a 146—151; referát viz ve SaS 10, 190).

Slovo a slovesnost, ročník 11 (1949), číslo 2, s. 59-64

Předchozí Jan Mukařovský: Kam směřuje dnešní theorie umění?

Následující František Kopečný: K neaktuálnímu významu dokonavých sloves v češtině