Časopis Slovo a slovesnost
en cz

Kniha o statistických metodách v české gramatice

Josef Štěpán

[Rozhledy]

(pdf)

Книга о статистических методах в чешской грамматике / A book on statistical methods in the Czech grammar

Nová monografie M. Těšitelové, Využití statistických metod v gramatice (Academia, Praha 1980, 219 s.), která volně navazuje na Otázky lexikální statistiky (Těšitelová, 1974), je věnována využití statistických metod v gramatice současného českého spisovného jazyka (stylu uměleckého a odborného, zvlášť se zabývá i projevy mluvenými) a představuje významný přínos nejen pro matematickou lingvistiku a teorii jazyka vůbec, ale také pro praktické aplikace. Zatímco studium lexika pomocí metod kvantitativních má již svou tradici, v gramatice je situace jiná, teprve v 60. letech [56]vznikají práce věnované této problematice (Těšitelová, 1977). Pokud je nám známo, kniha M. Těšitelové je vůbec první knižní monografií, která zpracovává celou gramatiku pomocí kvantitativních metod.

Výsledky kvantitativní analýzy jsou založeny na materiálu českého frekvenčního slovníku (Jelínek - Bečka - Těšitelová, 1961) a především na dalším novém materiálu, který M. Těšitelová pracně zpracovala ve více než stovce tabulek uvnitř knihy a ve 24 grafech a 22 tabulkách přílohy. Důležitá je lingvistická interpretace těchto tabulek a grafů; je napsána hutným stylem, přesvědčivě, srozumitelně a přehledně, záslužné je hlavně neustálé srovnávání stylu uměleckého a odborného i konfrontace zjištěných údajů s frekvenčním slovníkem.

Na začátku se M. Těšitelová zamýšlí nad základními předpoklady gramatické statistiky (s. 9—14). Prvním takovým předpokladem je vymezení jednotky souboru v morfologické a syntaktické statistice. V morfologii jde o tvar slova (autorka neužívá termínu slovní tvar), který chápe jako výsledek kombinací různých morfologických kategorií, např. napsal jsem má kategorie: 1. os., sg., minulý čas, způsob oznam. a aktivum (stranou zůstal vid). V syntaxi je to věta chápaná ne mechanicky od tečky k tečce, ale pojatá jako predikační jednotka, která má vnitřní a vnější organizaci; zvl. jde o zřetel k dvojčlennosti a jednočlennosti, k větě jednoduché a souvětí. Druhým předpokladem je výběr materiálu pro statistické studium gramatických jevů; ten je jiný v morfologii a jiný v syntaxi.

Kapitola třetí (s. 15—127) se zabývá morfologickou statistikou. Nejprve se věnuje pozornost výběru a rozsahu materiálu. M. Těšitelová neužívá výběr náhodný, ale volí výběr souvislých částí textů, který se již osvědčil v lexikální statistice. Svou detailní analýzu opírá o dva texty stylu uměleckého (K. Čapek, Život a dílo skladatele Foltýna a I. Kříž, Úsek častých nehod) a o dva texty odborné (K. Chochola, Spalovací motory a E. Severin - V. Kasika, Průmyslová televize). Výběr souvislých částí textů byl prováděn vždy v rozsahu 100 slov a kumulován ve výběry 500 slov, 1000 slov, 1500 slov a 2000 slov v prvém experimentu, 2500—3000 slov v druhém experimentu. Pomocí 20 tabulek a jejich interpretace autorka jasně ukázala, že výběr se musí řídit povahou jednotlivých druhů slov a že výsledky závisejí na druhu funkčního stylu a na slohových postupech (uplatňuje se i individuální styl autora).

Dále se M. Těšitelová věnuje především kvantifikaci základních morfologických kategorií jmen a sloves. Na začátku výkladu každé kategorie obecně tuto kategorii vymezuje a podává precizní charakteristiku výběru materiálu a jeho rozsahu, uvádí názvy zvolených textů.

U morfologických kategorií substantiv dochází autorka k těmto závěrům: frekvence rodu závisí jak na funkčním stylu, tak i na tematice textu, na stylu autora i na psanosti a mluvenosti. Ve všech případech má relativně největší frekvenci rod mužský, rod ženský je značně ustálený bez zřetele k uvedeným stylovým faktorům atd. V odborných textech mají feminina poněkud vyšší frekvenci než v textech uměleckých, což souvisí s užíváním slov abstraktních a slov cizích. Také frekvence čísla je závislá na funkčním stylu: v textech uměleckých mají tvary singulárové vyšší frekvenci než tvary plurálové, v textech odborných je nižší počet tvarů singulárových. Frekvence pádů se vyznačuje ustáleností, která je do velké míry podmíněna stylisticky. Pro texty umělecké je typická nejvyšší frekvence nom. sg. a nom. pl., pro texty odborné gen. sg. a gen. pl., v mluvených projevech nacházíme tři nejfrekventovanější pády: nom. sg., gen. sg. a ak. sg.

Také u adjektiv se ukazuje závislost frekvence morfologických kategorií na funkčním stylu, tematice aj. Je např. zajímavé, že v odborných projevech mluvených nacházíme relativně vyšší počet adjektiv rodu mužského, ale i středního a nižší počet adjektiv rodu ženského. Frekvence rodu, čísla a pádu u adjektiv ukázala ve srovnání s jejich frekvencí u substantiv, že adjektivum rozvíjí substantivum ve větě se značnou volností.

[57]U zájmen se M. Těšitelová soustřeďuje na ty druhy, které mají speciální flexi, tedy na zájmena bezrodá a rodová. U bezrodých zájmen (, ty, my, vy; se) dospěla autorka k jednoznačnému závěru, že u všech převažuje dativ, a to v textech uměleckých i odborných (u substantiv má dativ zpravidla frekvenci nejnižší). Z toho vyplynul důležitý závěr, že osobních zájmen bezrodých neužíváme místo substantiv, nýbrž samostatně, resp. tam, kde nelze dobře užít substantiva. Pokud jde o ostatní pády, v textech uměleckých patří k nejfrekventovanějším pádům vedle dativu také nominativ a genitiv a nejméně častý je lokál, v odborných textech je vedle dativu nejčastější genitiv a akuzativ, nejméně častý nominativ. K dalším zajímavým závěrům došla autorka analýzou zájmen rodových.

Také při analýze číslovek naznačila autorka vztahy k jiným slovním druhům, např. že frekvence pádů u číslovek základních je většinou shodná s frekvencí pádů u substantiv apod.

Pokud jde o sloveso, dokázala M. Těšitelová, že vázanost slovesných kategorií, osoby, čísla, času, způsobu a rodu, je v mnohém pevnější, než je tomu u kategorií jména. Jako nejfrekventovanější se ukázaly tyto tři kategorie: ind. préz. akt., ind. prét. akt. a kond. préz. akt. Podle očekávání má v rámci ind. préz. akt. bez zřetele k funkčnímu stylu největší frekvenci 3. os. sg. a pl. Pro texty umělecké je tu charakteristická i vyšší frekvence 1. os. sg., popř. i 1. a 2. os. pl., v textech odborných to platí o 1. os. pl. (vlivem tzv. plurálu skromnosti).

Z kategorie času má největší frekvenci čas přítomný (v odborných textech psaných i mluvených, z uměleckých textů v dramatech), čas minulý pak v textech uměleckých psaných. Nejméně častý je čas budoucí (vyjádřený složenými tvary). V dalších výzkumech, zvl. sémantických, bude třeba si také všimnout kombinací gramatické kategorie času s lexikálním vyjádřením času, zvl. ve funkci příslovečného určení.

Frekvence slovesného rodu ukazuje jasnou převahu tvarů aktivních (94,43 %) nad tvary pasívními (5,57 %). Tvary pasívní se vyskytují — podle očekávání — nejčastěji v textech odborných, a to zejména ve 3. os. sg. a pl.

Z neurčitých tvarů slovesných má relativně nejvyšší frekvenci infinitiv. V textech stylu uměleckého se ho užívá relativně méně než v textech stylu odborného. Ostatní neurčité tvary ponechala autorka stranou, protože mají velmi malou frekvenci (Klimeš, 1966; Dvořák, 1970).

Kapitola čtvrtá (s. 128—165) je věnována syntaktické statistice. Tato statistika je založena na stejném materiálu jako statistika morfologická (srov. výše kumulativní výběry). Tento materiál je podle našeho názoru reprezentativní. M. Těšitelová se soustředila na kvantifikaci tří jevů: délky věty, vnější a vnitřní organizace věty.

Délka věty, jejíž zjišťování má již ve stylistice tradici jako objektivní charakteristika, ukázala jednoznačnou závislost na funkčním stylu: věta v textech uměleckých je relativně kratší než věta v textech odborných. Ukázalo se potřebné tato data dále korigovat; je např. zajímavé, že v uměleckých textech má podřadné souvětí větu hlavní relativně delší než větu vedlejší, naproti tomu v textech odborných se délka věty vedlejší od věty hlavní významně neliší. Domníváme se, že bude třeba tato fakta dále korigovat, resp. zpřesnit, protože délka věty v souvětí závisí také na jejím umístění v souvětí.

Z vnější organizace věty zajímal M. Těšitelovou především poměr věty jednoduché a souvětí a frekvence souvětí podřadného a souřadného (stranou nechává souvětí jednoduché a složité). Ukázala se zajímavá proporcionalita charakteristická pro texty umělecké i odborné: V textech uměleckých nacházíme přes 50 % vět jednoduchých, asi 30 % souvětí podřadných a 15 % souvětí souřadných. V textech odborných připadá naopak více než 50 % větných struktur na souvětí podřadné, 40 % na větu jednoduchou a 10 % na souvětí souřadné. Ukázali jsme (Štěpán, 1977), že ovšem v uměleckých textech je podřadné složité souvětí (tj. souvětí skládající se [58]z více než dvou vět) častější než v odborných textech. Uvedená proporcionalita větných struktur souvisí přirozeně i s délkou věty. Zajímavé jsou údaje o počtu vět v souvětí podřadném a souřadném odborného i uměleckého stylu.

Zkoumání vnitřní organizace věty demonstrovala autorka na interpretaci frekvence větných členů a na frekvenci jednočlenných vět neslovesných.

Kniha M. Těšitelové věnovaná gramatické statistice dále fundovaně prohloubila poznání statistických zákonitostí v jazyce. Výsledků její morfologické statistiky bude možno využít při typologickém studiu jazyků, pro sestavování učebnic apod. Syntaktická charakteristika bude využita ve stylistice, v typologii, v nově se konstituující textové lingvistice (Těšitelová, 1981) a v mnoha dalších oborech. Dílo znamená svými obecnými závěry i statistickými charakteristikami konkrétních textů závažné obohacení české i světové matematické lingvistiky. Bylo by užitečné mít k dispozici i obdobnou práci, v níž by byly aplikovány statistické metody na oblast sémantiky.

 

LITERATURA

 

DVOŘÁK, E.: Vývoj přechodníkových konstrukcí ve starší češtině. Praha 1970, s. 137—145.

JELÍNEK, J. - BEČKA, J. V - TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

KLIMEŠ, L.: Přechodníkové vazby v kronice Jana Norberta Zatočila z Loewenbrugku (1685). Slavica Pragensia, 8. AUC. Praha 1966, s. 101—106.

ŠTĚPÁN, J.: Složité souvětí s řetězcovou závislostí. Praha 1977, s. 9.

TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha 1974. Srov. rec. Horecký, J. v SaS, 37, 1976, s. 45—47, Panevová, J. v NŘ, 60, 1977, s. 31—34 aj.

TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Lingvistické příručky filozofické fakulty Univerzity Karlovy. Praha 1977.

TĚŠITELOVÁ, M.: Ke kvantitativní analýze textu. SaS, 42, 1981, s. 1—8.

Slovo a slovesnost, ročník 43 (1982), číslo 1, s. 55-58

Předchozí Josef Filipec: Nová publikace z historické lexikologie

Následující Jan Králík: Nové sovětské příspěvky z kvantitativní lingvistiky