en cz

Fonologická statistika rumunštiny a několik jazykově typologických srovnání

Marie Ludvíková

[Rozhledy]

Фонологическая статистика румынского языка и несколько типологических сопоставлений / La statistique phonologique du roumain et quelques rapprochements typologiques et linguistiques

Řada prací z oboru kvantitativní lingvistiky byla obohacena o novou monografii, kterou napsala rumunská lingvistka z Centra pro fonetický a dialektologický výzkum Rumunské akademie věd Alexandra Roceric-Alexandrescová, Fonostatistica limbii române (Bucureşti 1968, 172 s., s anglickým résumé). Pojednává o statistické struktuře fonologické roviny současné spisovné rumunštiny. Kvantitativní popis jazyka chápe autorka právem jako nedílnou součást strukturní lingvistické metody. V úvodu rozebírá hlavní principy užití statistických metod v lingvistice, [167]objasňuje základní statistické pojmy a ve stručnosti seznamuje s historií statistické lingvistiky, zvláště s podněty, které přinesly práce členů pražské školy V. Mathesia, B. Trnky, J. Vachka a N. S. Trubetzkého. Bylo by tu na místě připomenout i statistické výzkumy z období předstrukturního, jako např. frekvenční slovník Kaedingův (1897), frekvenci písmen a slov ve francouzštině od J. B. Estoupa (1916) nebo statistiku anglických hlásek G. Deweye (1923).

Materiál pro statistický rozbor fonémových struktur poskytly autorce texty současné spisovné rumunštiny z oblasti beletrie, novin a vědecké literatury, z nichž bylo vyexcerpováno 10 000 fonémů. Stylová různorodost a značný počet textových výběrů dovolují jisté zobecnění výsledků. Předmětem zkoumání jsou především kvantitativně syntagmatické vztahy mezi fonologickymi jednotkami vokalickými a konsonantickými, dále pozice fonémů v slabice a slově, jejich délka a entropie. Tato problematika je rozvržena do tří kapitol, z nichž první je věnována typům fonémových struktur, druhá délce fonematických posloupností a třetí, nejkratší, odhadu entropie.

Podkladem práce je statistika fonémů rumunštiny, jejichž inventář o počtu 27 jednotek byl převzat z fonologie E. Vasilia.[1] Tato statistika rumunských fonémů je v pořadí již čtvrtá.[2] Porovná-li čtenář údaje uváděné jednotlivými autory pro poměr vokál/konsonant, zjišťuje, že zvuková stránka rumunštiny se pomalu mění, že přibývá vokalických fonémů a ubývá konsonantů. Tato tendence dobře vynikne jednak z konfrontace jednotlivých chronologických stavů rumunštiny, jednak ze srovnání s jinými jazyky románskými, popř. i dalšími, jak o tom svědčí následující tabulka.[3]

Rumunština

Italština

Čeština

Němčina

Şi

Roc

vokály

konsonanty

42,7

57,3

45,16

54,84

47,26

52,74

49,4

50,6

47,74

52,26

41,30

58,70

38,86

61,14

Pokud jsou tyto údaje spolehlivé, svědčí o tom, že rumunština, která obsahuje značné procento slovanských prvků, v poslední době se vlivem vnitřních i vnějších faktorů v některých rysech od slovanských jazyků vzdaluje a přibližuje se jazykům románským, které využívají vokalického elementu mnohem hojněji. Poměr vokál/konsonant jako důležitá typologická charakteristika je v knize ilustrován ještě na jiných evropských jazycích včetně maďarštiny a řečtiny; ukazuje se, že rumunština je po této stránce blízká zejména italštině, zatímco se výrazně odlišuje od jazyků germánských. Jak však autorka správně poznamenává, vzhledem k fungování jazyka nemohou být v rozložení vokálů a konsonantů mezi jazyky velké rozdíly; je to však jeden z aspektů tzv. eufoničnosti jazyka.

Zvláštní vlastností rumunštiny — na rozdíl od češtiny — je skutečnost, že tvoří vedle konsonantických skupin i skupiny vokalické. Autorka proto v další části práce nevolí obvyklý způsob analýzy na postupné digramy a trigramy, ale [168]analyzuje text na tzv. segmenty jednoduché (vokály, konsonanty) a segmenty komplexní, jimiž se rozumějí dvou- a tříčlenné konsonantické a vokalické skupiny v mezích slova. Tato analýza je provedena ve formě sondy na omezeném materiále 2000 fonémů.

Frekvenční pořadí jednotlivých segmentů jednoduchých i komplexních je následující:

Pořadí	1—5	: vokály		V
	6—22	: poslední vokály a konsonanty		V, C
	23	: první dvoučlenná vokal. skupina		C, VV
	25	: první dvoučlenná konsonant. skupina		C, VV, CC
	34	: první tříčlenná konsonant. skupina		C, VV, CC, CCC
	55	: první tříčlenná vokal. skupina		C, VV, CC, CCC, VVV

Přitom počet různých			jednoduchých segmentů		V	7
			komplexních segmentů		VV	18
			komplexních segmentů		VVV	7
			jednoduchých segmentů		C	20
			komplexních segmentů		CC	55
			komplexních segmentů		CCC	9
Celkem						116

Podrobná analýza dvoučlenných vokalických a konsonantických skupin se zřetelem ke kontextu (danému předchozím a následujícím fonémem) rozlišuje skupiny symetrické a asymetrické, u symetrických pak ještě řadu různých typů. Symetrická skupina vokalická nebo konsonantická je taková skupina, jejíž permutací vznikne opět skupina existující v daném jazyce. Této analýze bylo podrobeno 10 000 vokalických a 10 000 konsonantických digramů vyexcerpovaných z textu; z nich 94,5 % vokalických skupin a 66 % konsonantických jsou skupiny symetrické, což značí, že symetrie homogenních fonémových dvojic je charakteristickým rysem rumunského fonologického systému. Pro každou dvoučlennou skupinu se udává její četnost v procentech, počet kontextů, v nichž se vyskytla, a četnost výskytů v jednotlivých kontextech. Tyto údaje jsou doplněny úplným seznamem kontextů a seznamem slovních příkladů. Podobně jsou zpracovány i skupiny tříčlenné, čtyřčlenné a pětičlenné, vyexcerpované ze zmíněných textů.

Další oddíl je věnován frekvenci fonémů v pozici na počátku slova, která je zajímavá z hlediska informace, jež se na tomto místě soustřeďuje. Porovnávají se výsledky statistiky provedené (a) na literárních textech (údaje získány z práce V. Şutea),[4] (b) na tzv. mluvených textech (lidové vyprávění z okolí Prahovy, vyšlo v r. 1928), (c) na slovníku spisovné rumunštiny (z r. 1956). Srovnává se frekvence počátečních fonémů v jednotlivých textech a dále frekvence fonémů stojících na počátku slova s jejich celkovou četností (bez zřetele na pozici), získanou zpracováním týchž výběrů textu literárního a lidového. Výsledky podle očekávání frekvenčně odlišují fonémy preferované na počátku slova od fonémů ostatních; v celkové statistice se ovšem tento rozdíl stírá.

Oddíl věnovaný koncové pozici ve slově patří k nejzajímavějším partiím knihy. Na konci slova dává přednost rumunština, podobně jako čeština, vokálům, které se v této pozici objevují přibližně v 70 % slov, pouze v 30 % je konec slova konsonantický (v češtině je tento poměr 71 % : 29 %). Pokusíme-li se srovnat zde rumunštinu s češtinou (o. c. v pozn. 3), dostáváme podobné frekvenční pořadí fonémů.

[169]		Rumunština		Čeština
Na prvních 3 místech	iniciálně jsou	3 kons.	(s, k, p)	3 kons.	(s, p, n)
	finálně	3 vok.	(e, a, ă)	3 vok.	(e, i, a)
	celkově	3 vok.	(e, a, i)	3 vok.	(e, o, a)

Autorka uvádí zajímavá zjištění, do jaké míry je četnost fonému na konci slova ovlivněna gramatickou funkcí, pro niž je foném typický. Konec slova indikuje různé flektivní vztahy mezi slovy, vedle toho je však i mnoho případů, kdy koncový foném takovou funkci nemá. Např. nejčetnější koncové vokály v rumunštině e, i, a, ă kumulují gramatické funkce, jimiž lze vysvětlit jejich značný výskyt na konci slova; na druhé straně konsonanty t, l, r mají též značnou frekvenci na konci slova, ale každý z nich má jen 1 až 2 gramatické funkce; jejich četnost je nutno vyložit jinak. Rozborem zkoumaného materiálu dospívá autorka k trojí její motivaci: (1) motivace gramatická se uplatňuje u nejčetnějších fonémů e, i, a, ă, z nichž každý indikuje řadu gramatických vztahů; (2) motivace vyplývající z vysoké četnosti fonému; u frekventovaných fonémů lze očekávat jejich výskyt i v koncové pozici slova bez ohledu na počet gramatických funkcí, které zastávají (např. t, které je silně frekventované na konci slova, má pouze 2 gramatické funkce, podobně r a l mají po 1 funkci; avšak zatímco z celkového počtu finálních r pouze ¹/₃ jde na účet flexe, z celkového počtu koncových l je 80 % výskytů dáno členem: l indikuje jen jednu gramatickou kategorii, ale ta je velmi četná; (3) vysoká četnost fonému na konci slova může být odůvodněna vyšší frekvencí slova, v němž se foném vyskytuje. Zajímavé je též srovnání frekvence koncových fonémů v slovníku a textu. Z 25 fonémů na konci slova má 14 fonémů pořadí přibližně stejné v textu i v slovníku, 11 fonémů se chová jinak. V textu končí vokálem 69,02 % slov, konsonantem 30,08 % slov; naopak v slovníku končí většina slov konsonantem (54,41 %), což svědčí o rozdílných poměrech v slovníku a textu; při frekvenčním výzkumu si tento jev zaslouží zvláštní pozornost.

Druhá kapitola knihy je věnována vyšší jednotce fonologické roviny — slabice. Studium slabičné struktury zahrnuje delimitaci slabiky, popis kombinatorických vlastností konsonantů a vokálů v rámci slabiky, inventář nejfrekventovanějších slabičných typů a strukturu polysylabických slov v rumunštině. Slabika se definuje jako fonický segment charakterizovaný jedním přízvukem. V rumunštině se slabikou podrobněji zabýval E. Vasiliu (o. c. v pozn. 1) a o něho se též autorka teoreticky opírá. Při segmentaci slov na slabiky vychází z předpokladu amerických deskriptivistů, že totiž struktura počátku a konce slova je modelem počátku a konce slabiky — že jsou spolu identické. Podle této zásady se pak dělí intervokalické skupiny konsonantů uvnitř slova; u intervokalických skupin připouštějících více možných řešení rozhodují statistická kritéria. Takto bylo získáno přibližně 10 000 slabik představujících asi 3770 víceslabičných slov textu (monosylaba byla ponechána stranou). Na nich autorka určuje repertoár slabičných typů pro jednotlivé pozice v slově, jejich délku a organizaci slabiky. Pokusím se opět srovnat některé údaje s češtinou (vlastní výsledky na materiálu odborného mluveného textu).

V rumunštině se na počátku slova vyskytlo 15 slabičných typů, uprostřed slova 10 typů, na konci 16 typů. Rozložení slabik podle délky vyjádřené počtem fonémů je v češtině a rumunštině téměř shodné:

d =

. . . . . rumunština

7,11

61,5

25,54

4,0

0,28

—

čeština

4,54

62,22

27,24

5,1

0,82

0,08

[170]Na vyšším počtu jednofonémových slabik v rumunštině má významný podíl člen, v češtině je naopak více slabik delších, což může být způsobeno odlišným charakterem textu (v češtině jde o text odborný, obsahující dlouhé slabiky jako např. struk-tu-ra, sou-část; v rumunštině je to výběr složený z textu beletristického, odborného a publicistického). Nejčastějším slabičným typem je v obou jazycích typ konsonant+vokál (CV): v rumunštině je zastoupen 54,8 % výskytů, v češtině 58,6 %; nejméně četný je v rumunštině typ CCVCC (0,04 %), v češtině typ CCCVCC (0,01 %).

Stejně jako struktura slabiky je podmíněna kombinačními vlastnostmi fonémů i struktura slova představuje posloupnost slabik řízenou strukturními pravidly, i když patrně slabika je samostatnější jednotkou než foném a vazba mezi slabikami je méně silná. Schopnost slabiky vytvářet slabičné posloupnosti nazývá autorka adherencí. Slabika má tím větší adherenci, čím více různých slabičných typů může za ní následovat nebo před ní předcházet. Maximální adherence dosahuje nejfrekventovanější typ CV, a to ve všech pozicích — na počátku, uprostřed i na konci slova. Adherence statisticky postihuje zákonitosti spojování slabik v jednotky nejblíže vyšší — polysylabická slova.

Délka slov vyjádřená počtem slabik se zkoumá jednak ve vztahu ke stylu, z něhož pochází textový materiál (styl beletristický, odborný a publicistický), jednak ke slovníku. Délka slova jako stylová charakteristika byla již studována různými autory,[5] kteří shodně zjišťují, že pro odborný styl jsou příznačná slova o větším počtu slabik, pro beletrii slova poměrně krátká. Zajímavější a dosti málo zpracovaný je vztah mezi délkou slova v textu a ve slovníku.[6] Autorka zde předkládá pouze dílčí výsledky získané orientační sondou, které však přece obrážejí významné kvantitativní rozdíly mezi lexikálním systémem (slovníkem lexémů) a jeho využitím. V textu jsou podle klesajícího frekvenčního pořadí na 1. místě slova jednoslabičná, pak dvouslabičná, tříslabičná atd. V slovníku jsou však nejčetnější slova dvouslabičná, po nich přibližně se stejnou četností se vyskytují slova jednoslabičná a tříslabičná, za nimi pak ostatní polysylabická. Dlouhá slova (o 6 a více slabikách) jsou v textu zastoupena 1 %, v slovníku 2,3 %. Z hlediska ekonomie jazykového fungování je to jev zákonitý, odpovídající Zipfovu principu nejmenšího úsilí, a svědčí i o jisté „uniformitě“ lexikálních jednotek v slovníku, kde slova jsou uváděna v základním tvaru.

Poslední kapitola knihy, velmi krátká, pojednává o jazykovém sdělení z hlediska teorie informace. Výklad o pojmech entropie a informace uvádí konkrétní data vypočítaná pro různé fonologické jednotky rumunštiny: množství informace na foném odvozené z entropie na písmeno pomocí koeficientu ω (H₁ = 4,11; v češtině H₁ = 4,61; viz o.c. v pozn. 3), množství informace na foném v pozici na počátku slova (H_in = 4,56), množství informace, které nese slabičný typ v rumunštině (H_syl = 2,6329) a konečně entropie vícečlenných posloupností slabičných typů.

Závěrem lze říci, že monografie rumunské autorky přináší řadu zajímavých pozorování i z těch oblastí fonologie, kterým byla dosud věnována malá pozornost (např. závislost četnosti a gramatické funkce fonému), a dále některá užitečná kvantitativní srovnání textu a slovníku. Nedostatkem je, že se neuvádí vždy přesně materiál užitý v jednotlivých statistických analýzách, jeho rozsah, způsob excerpce [171]a metoda, jíž byl pořízen. Bez těchto technických dat není dobře možné učinit si představu o signifikantnosti některých výsledků, o možnosti jejich zobecnění, popř. o jejich interpretaci. Po statistické stránce by bylo možno též žádat některá upřesnění, např. v případě ztotožňování frekvence a pravděpodobnosti. Stejně tak otestování výsledků statistickými testy by zvýšilo hodnotu této jinak důkladné a podnětné práce.

[1] E. Vasiliu, Fonologia limbii române, Bucureşti 1965.

[2] I. Şiadbei, Din estetica limbii române: Proporţia fonemelor, Anuarul liceului naţional din Iaşi, 1932—1933, s. 12—18; D. Macrea, Despre fizionomia fonetică a limbii române, Probleme de fonetică, Bucureşti 1953, pův. verze v čas. Dacoromania 10, 1941—43, 39—49; M. Grumazescu, Studiul asupra foneticii statistice a limbii române, Comunicarile Academiei R.P.R., V, č. 10, 1955, s. 1429—1437.

[3] Údaje s výjimkou češtiny jsou přejaty z recenzované knihy; o češtině z článku M. Ludvíkové a J. Krause Kvantitativní vlastnosti soustavy českých fonémů, SaS 27, 1966, 334—344.

[4] V. Şuteu, Observaţii asupra frecvenţei cuvintelor in opera unor scritorii români, Studii si cercetari linguistice 10, 1959, s. 419—443.

[5] Např. W. Fucks, Mathematische Analyse von Sprachelementen, Sprachstil und Sprache, Köln 1955; T. Tarnóczy, A. jéloszlás és a hirtartalom nyelveket meghatározó tulajdonságáiról, Nyelvtudományi Közlemények 63, 1961, 161—178; M. Ludvíková, Statistical Syllable Analysis of Words in Czech, Prague Studies in Mathematical Linguistics 3 (v tisku).

[6] Např. A. Hood-Roberts, A Statistical Linguistic Analysis of American English, The Hague 1965; viz též recenze této knihy v SaS 18, 1967, s. 100—102.

Slovo a slovesnost, ročník 31 (1970), číslo 2, s. 166-171

Předchozí Jitka Štindlová, Eva Macháčková: Texty Slezských písní Petra Bezruče prověřovány stroji

Následující Miroslav Grepl, Jan Kořenský: O krakovském zasedání Mezinárodní komise pro studium gramatické stavby slovanských jazyků při MKS

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: