en cz

O některých problémech kvantifikace jazykových jevů

Marie Těšitelová

[Articles]

О некоторых проблемах квантификации языковых явлений / Quelques problèmes de la quantification des phénomènes linguistiques

[*]1. V lingvistice i v jiných společenských vědách užívá se hojně při aplikaci kvantitativních metod výrazu kvantifikace, kvantifikovat. Např. v lingvistice mluvíme o kvantifikaci jazykových jevů různých rovin, o kvantifikaci slovní zásoby apod. Obecně se rozumí těmto výrazům ve smyslu ‚určovat, charakterizovat co do kvantity, kvantitativně‘, obdobně jako souvztažným výrazům kvalifikace, kvalifikovat ‚určovat, charakterizovat co do kvality, kvalitativně‘. Máme-li podat odbornou definici příslušných pojmů, marně hledáme oporu v dostupné literatuře matematické, resp. statistické.[1] Tento termín nacházíme v moderní logice;[2] označuje operace predikátové logiky nebo též logiky funkcí, která studuje výroky, výrokové funkce, kvantifikátory ap.[3] Jako logický pojem definuje kvantifikaci i sovětská Filozofická encyklopedie;[4] Slovník spisovného jazyka českého (SSJČ) vykládá výraz kvantifikovat jen jako termín filozofický: ‚zavést, zavádět hlediska kvantitativních vztahů při zkoumání společenských jevů‘. Tento výklad je celkem nejblíže tomu, co se v kvantitativní lingvistice většinou chápe jako kvantifikace v širokém slova smyslu: charakterizování jazykových jevů vymezených kvalitativně a jejich vztahů údaji kvantitativními, na základě zjišťování jejich počtu v jazykovém systému, jejich četnosti (frekvence) v textu, stanovení jejich pořadí, uspořádávání, měření na základě jejich různých znaků ap.[5]

Pojem kvantifikace se různě realizuje v lingvistice i v jiných společenských vědách, a to i v různých jejich oblastech, např. v kvantitativní lingvistice, textologii apod. Kvantifikaci samé a jejím různým formám realizace budeme věnovat zvláštní pozornost mimo rámec tohoto článku. Zde nám jde o to, ukázat některé problémy spjaté s tímto pojmem v kvantitativní lingvistice, problémy většinou víceméně otevřené, a to nejen v kvantitativní lingvistice, nýbrž i jinde, jak ukázala např. diskuse našich sociologů.[6]

K. Berka ukázal, ve vztahu k tzv. čítání a měření (srov. dále), že dosavadní definice kvantifikace v sociologické literatuře jsou značně neujasněné a nejednotné. Souvisí to s otázkou, které jevy a jak jsou kvantifikovatelné, i na přístupu ke kvantifikaci. Např. statistik J. Řehák[7] chápe kvantifikaci jako „pravidlo, které nám přiřazuje prvky množiny reálných čísel, resp. z jiné číselné množiny, z vektorových prostorů apod., k jednotlivým stavům vlastnosti“ (s. 623). Jde o tzv. kvantifikaci přirozenou (srov. např. kvantifikaci syntaktických funkcí nom. sg. substan[99]tiv, tab. č. 4, 5, 6).[8] Vedle toho existuje účelová, umělá kvantifikace, která má technický charakter, např. číselný kód, kterého se užívá při strojovém zpracovávání jazykových dat (srov. pozn. 8).

Zvláštním případem kvantifikace — běžným v kvantitativní lingvistice — je tzv. klasifikace, tj. např. přiřazení pořadových čísel (tzv. ranků) slovům uspořádaným podle klesající frekvence. Jako příklad možno uvést prvních deset nejvíce frekventovaných slov v současné publicistice (o.c. v pozn. 8. dále jen P) ve srovnání s analogicky uspořádanými nejvíce frekventovanými slovy ve frekvenčním slovníku češtiny.[9]

Rank	P	F	FSČ
1.	a	a	a
2.	v(e)	v(e)	býti
3.	býti	býti	ten
4.	na	na	v(e)
5.	ten	ten	on
6.	který	který	na
7.	že	že	že
8.	i	on	s(e)
9.	o	s(e)	z(e)
10.	z(e)	z(e)	který

Jak zřejmo — prvních sedm nejvíce frekventovaných slov (jednotek lexikálních) se v textech shoduje (lze tu mluvit o statistické ustálenosti), jsou stejně klasifikovány (mají stejné pořadí), liší se však od „normy“ FSČ (srov. dále).

Při kvantifikaci jazykových jevů není jednoty v názorech, které jevy lze kvantifikovat, zda pouze jevy vyskytující se v textu, nebo i jevy jazykového systému. Prvý názor, poměrně vžitý, zastává např. U. Pieperová,[10] kdežto např. G. Herdan[11] navrhoval mimo jiné kvantifikovat i prvky jazykového systému. Při zpracování morfologické homonymie v češtině jsem rovněž ukázala,[12] že kvantifikovat lze i jevy jazykového systému. Je ovšem třeba položit si otázku, k čemu má kvantifikace sloužit, a podle toho volit vhodné postupy; není to ovšem vždy jednoduchá otázka.

Pokud jde o místo kvantifikace z hlediska ontologického, souhlasím s názorem M. Illnera,[13] že jádro problému není v metodologii, ale ve způsobu zacházení s kvantifikovanými jevy (v našem případě jazykovými) a v operacích s nimi. Jde při tom o hlubší poznání jevů objektivní reality, a tedy i jazyka, které jsou i kvantitativní. [100]Nachází to své opodstatnění v materialistické dialektice, ve vztahu kvality a kvantity.

2. Vztah kvality a kvantity

Na základě dialektického vztahu kvality a kvantity, tedy dvou ze základních filozofických kategorií, je třeba k plné znalosti jazyka, jakožto součásti objektivní reality, znát jeho stránku jak kvalitativní, tak i kvantitativní. Mezi kvalitativní a kvantitativní analýzou existuje těsná funkční souvislost, obě plní stejné nebo podobné poznávací cíle, tj. umožňují jazykové jevy odlišovat, klasifikovat, postihovat jejich vztahy a jejich zákonitosti apod.

Při kvantitativní analýze v lingvistice vycházíme buď z textu, nebo z jazykového systému, zjišťujeme výskyty jazykových jevů, které jsou podmíněny různými činiteli. V textu je to např. již sama jeho stylová příslušnost, dále to jsou vztahy a vazby mezi jednotlivými jazykovými jevy, které se mohou obměňovat podle povahy různých jevů apod. Vycházíme při tom z gramatických kategorií, morfologických a syntaktických, charakteristiky lexikální se u většiny jazykových jednotek, zvl. u jazyků s bohatou morfologií, doplňují až při konečném zpracovávání, při sestavování frekvenčních seznamů apod., tj. vycházíme z poznatků kvalitativních, z kvalitativních jednotek, „kvalitativních veličin“, vyjádřeno termínem U. Pieperové (o.c. v pozn. 10, s. 72—73). Podle této autorky „Eine grammatische Kategorie, oben ‚qualitative Größe eines Textes‘ genannt, kann je nach ihrem Stellenwert innerhalb des grammatischen Systems für die statistische Analyse als quantitative oder als qualitative Variable auftreten“ (s. 72). Autorka tu — podle mého názoru — zachází poněkud volně s proměnnou jakožto veličinou, která může v určité úvaze nebo početní operaci nabývat různých hodnot, a snaží se dokázat, že kvantitativní analýza může přinést nové kvalitativní poznatky o textu, v daném případě týkající se stylu. Závěr autorčin je nepochybně správný, vztah analýzy kvalitativní a kvantitativní je však složitější, což souvisí s rozdílem mezi pojmy kvality a kvantity,[14] ovšem i z jejich souvislosti, vzájemné podmíněnosti.

Je přirozené, že míra a poměr poznatků, které možno označit jako kvalitativní a kvantitativní, závisí na povaze sledovaných jazykových jevů a problémů na straně jedné a na možnostech a mezích metody nebo metod, kterých dnes při tom užíváme, na straně druhé. Do značné míry se tu uplatňuje i různá tradice, kterou má dosud studium jedné i druhé stránky jazyka. Souhlasím s J. Krámským,[15] že kvalitativní aspekt nelze „hypostazovat“ a odtrhovat jej od kvantitativního.

3. Tzv. čítání a měření

Jak ukázala výše zmíněná diskuse našich sociologů, ale i jak ukazuje literatura matematická, resp. statistická, není jednoty ve dvou základních otázkách, co je čítání a co měření. Nás se tato problematika také bezprostředně týká, protože jde o dvě základní operace v kvantitativní lingvistice, dosud celkem nerovnoměrně uplatňované. Zatím nejméně jasný je pojem měření a vztah měření a čítání.

Poměr čítání a měření, jak se nám jeví v kvantitativní lingvistice, vystihuje nejlépe — podle mého názoru — výklad J. Řeháka: „Čítáním zjišťujeme počet prvků, které mají danou vlastnost, a výsledné číslo je charakteristickou vlastností souboru. Od něho pak mohou být odvozena čísla „spojitá“, tj. relativní četnosti a podobné míry. Takové odvozené měření však nutně předpokládá měření základní (fundamen[101]tální, prvotní), kterým je v tomto případě čítání.“[16] Pokládám za nejpřijatelnější názor, který zřejmě vyplývá z uvedeného citátu, že čítání je součástí měření, nikoli ovšem měřením samým. Někteří odborníci však čítání z měření vylučují, např. K. Berka (o.c. v pozn. 6). Tvrdí, že se čítání vztahuje buď na diskrétní veličiny, nebo na libovolné prvky nějaké množiny entit, kdežto měření se od něho odlišuje tím, že se nevztahuje na objekty samé, „ale jedině na různé jejich vlastnosti“ (s. 546). Jak zřejmo, problém, co je čítání a co měření, souvisí s chápáním znaku v logice a pak zejména ve statistice. Není snad třeba připomínat, že se v logice a ve statistice užití termínu znak zásadně liší od užití, s nímž se setkáváme v lingvistice a v sémiotice vůbec;[17] jde o termín znak ve významu, který je lépe označovat termíny příznak, rys.

V logicko-statistickém pojetí znaku se zřetelem ke kvantifikaci jde v podstatě o dvojí aspekt: Znak jako měřící škála, stupnice, tj. libovolné čáry, jejímž jednotlivým bodům se přisuzuje číselný význam. Jako měřící znak se volí vhodný znak, což je úkol, který není vždy jednoduchý a který je podmíněn zejména cílem měření a jeho místem v poznávacím procesu. Takovým znakem může být např. počet slov ve větě jednoduché, v souvětí (srov. tab. č. 9, 10), rank přiřazený slovům uspořádaným podle klesající frekvence apod.

Pro potřeby aplikace statistických metod a zejména počtu pravděpodobnosti vymezuje J. Hájek (o.c. v pozn. 1, s. 18n.) znak jako „určitou soustavu vzájemně se vylučujících vlastností, z nichž jednu má každá jednotka“. Tyto vlastnosti nazývá hodnotami (hladinami, obměnami) daného znaku. „Liší-li se hodnoty znaku mezi sebou pouze číselnou velikostí, hovoříme o kvantitativním znaku neboli veličině; v opačném případě mluvíme o kvalitativním znaku“ (s. 18). Jako příklad takto vymezeného znaku uvádí typy slabik v češtině (ba, bba apod.), tj. znaky kvalitativní; podle těchto znaků lze slabiky rozlišit a utřídit. V souboru (v textu) se slabiky různě opakují, nabývají hodnot, liší se velikostí, stávají se veličinami.

J. Řehák (o.c. v pozn. 7) chápe znak analogicky jako zobecněnou proměnnou, tj. veličinu, která může v určité úvaze nebo početní operaci nabývat různých hodnot, která se vyskytuje všude tam, kde empiricky zkoumáme realitu, tedy i v jazyce.

Pokud jde o poměr čítání a měření, je to, zdá se, koneckonců věcí konvence, zda čítání do měření zahrneme či nikoli (o.c. v pozn. 16, s. 645). Není jednoty ani ve vymezení měření samého. V kvantitativní lingvistice nám jde zejm. o to, aby vhodné využití obou těchto operací přispělo k lepšímu řešení našich úkolů.

Na význam měření pro kvantitativní lingvistiku ukázala v poslední době R. M. Frumkinová.[18] Snaží se bojovat proti vžité představě, že např. aplikace statistických metod v lingvistice znamená jen zjišťování frekvence opakujících se jednotek (hlavně v textu) a vůbec v hromadění dat číselného charakteru, která nebývají vždy — podle Frumkinové — dostatečně interpretována. Je ovšem pochopitelné, že rezultáty měření nemusí být vždy vyjádřeny čísly; je to např. rozdělení objektů na třídy podle daných znaků, osob podle užívání nějakého výrazu apod.

Pokud jde o měření v kvantitativní lingvistice, bylo tu — podle mého názoru — mnoho uděláno, ovšem ne vždy dost uvědoměle. Souvisí to zejména s tím, že obě operace, čítání a měření, těsně spolu souvisejí (srov. Řehákovu definici na s. 100). Např. zjišťujeme frekvenci (četnost) slov v textu, tato slova pak podle jistých znaků třídíme do slovnědruhových tříd, ty potom dále rozdělujeme na další třídy (skupiny [102]nominální a verbální), v rámci jednotlivých tříd pořádáme slova podle ranků, poměřujeme jejich výskyt různými koeficienty (na základě primární operace čítání) apod.[19] Pro budoucnost bude však třeba promýšlet využití obou operací, čítání i měření, v kvantitativní lingvistice a více je rozlišovat. Bude třeba zvážit výhody obou operací pro kvantifikaci v jazyce; nemalý význam bude tu mít i složitost užitých operací, která až dosud byla na jedné straně přeceňována, na druhé straně nedoceněna. Složitost užitého aparátu nemusí ovšem vždy znamenat přínos pro studium daného jevu.

4. Proměnná a text

Při kvantitativní analýze textu vystupuje jazyková jednotka jako proměnná (srov. též výše). Se zřetelem k tomu musí být jednoznačně definována, především se zaměřením na cíl výzkumu. Pokud jde o jazykové jednotky, je to — jak známo — i z hlediska kvalitativního úkol nesnadný a musí být řešen tak, aby nebyl v rozporu s některým přijímaným pojetím lingvistickým a aby dával možnost srovnávat dosažené výsledky se zjištěními již známými. Jednou zvolené znaky při vymezení jednotky souboru, proměnné, je nutno během práce zachovávat, aby byla zajištěna maximální homogennost souboru a spolehlivost zjištěných výsledků.

Při kvantitativní analýze českého textu lze za proměnné považovat různé jevy, fonologické, gramatické, lexikální apod. Ty se v textu, popř. v textech různě opakují a to vytváří vhodné předpoklady zejména pro aplikaci statistických metod. Zjišťování statistických zákonitostí, které se projevují u jazykových proměnných, nachází své opodstatnění zejména v dialektické souvislosti nutnosti a nahodilosti. Z tohoto vztahu vyplývá, že i nahodilé jevy jsou podřízeny zákonitosti.[20] V našem případě jsou individuální nahodilé jevy jazyka — proměnné — vyskytující se ve velkém počtu podřízeny zákonitosti statistické. Při malém počtu pokusů nebo při výskytu jevu v jediném případě máme co činit s nahodilostí. Teprve velký počet nahodilých případů přechází v novou kvalitu, v zákonitost. Z hlediska lingvistického jsou mnohdy zajímavé i výskyty jevů řídkých, ojedinělých, které mohou mít význam z hlediska gramatického i lexikálního, ale i stylového (např. individuálního stylu autora) apod.[21]

Statistika jako věda o souboru (srov. J. Hájek, o.c. v pozn. 1) umožňuje nám jednak zkoumat výskyt jednotek (v našem případě jazykových jevů jako proměnných) na dostatečně velkém souboru a odlišit jevy ojedinělé nebo vyskytující se pouze sporadicky od jevů zákonitých, vyskytujících se v početných souborech pozorování, jednak celek přeměnit v soubor vhodně zvolených jednotek, každou jednotku vyšetřit odděleně a potom získané údaje sjednotit a vytvořit číselný obraz o sledovaném celku. Číselné vlastnosti souboru se vyjadřují statistickými charakteristikami, parametry apod. Jednotky, které tvoří soubor, možno dále třídit a klasifikovat podle různých znaků, např. slovnědruhových, morfologických, syntaktických apod.

Nejen pojetí jednotky proměnné, ale i pojetí textu má při kvantifikaci svou specifiku. Ponechávám tu stranou složitou problematiku textu vůbec[22] a pokusím se formulovat, jak chápeme text při kvantitativní analýze, resp. v práci oddělení matematické lingvistiky ÚJČ ČSAV (srov. pozn. 8): Je to jazykový projev, psaný nebo mluvený, který představuje konečnou množinu diskrétních veličin jazykových [103]prvků uspořádaných lineárně. Jazykovými prvky množiny jsou slova (resp. tvary slov, slovoformy), jsou však i jednotky nižší, foném, morfém, ale i vyšší, syntagma, věta, odstavec apod.

Slovo a věta fungují v naší praxi (o.c. v pozn. 8) jako proměnné; slovo — a dále i věta — se chápe bez zřetele k tomu, jde-li o projev psaný nebo mluvený (ten se analyzuje v přepsané podobě), v podstatě jako grafická jednotka, tj. písmeno nebo skupina písmen mezi dvěma mezerami, ovšem s jistými korekturami vzhledem k morfologii (např. složené tvary slovesné typu psal jsem se počítají jako jedno „slovo“) a k sémantice (přihlíží se např. k ustáleným spojením, sdruženým pojmenováním apod., srov. užitná hodnota apod.); věta se chápe jako predikační jednotka, resp. jednotka s jedním predikátem, jednoduchým nebo složeným, popř. i souřadně (proti jinak celkem běžné praxi, že se jako věta chápe jazykový útvar od velkého písmena k interpunkčnímu znaménku („od tečky k tečce“) bez zřetele k tomu, jde-li o větu jednoduchou nebo o souvětí). Slova a věty se v lineárním sledu seskupují v text podle toho, jak autor vybírá slova ze své slovní zásoby a jaké gramatické kategorie jim přiřazuje, aby jeho sdělení (komunikát, text) bylo smysluplné a splnilo své poslání. Volba gramatických kategorií je přirozeně závislá na volbě slov, např. jiné gramatické kategorie přiřazujeme substantivu, např. pád, jiné slovesu, např. osobu, čas, jinými slovy řečeno, jedna proměnná podmiňuje volbu jiné proměnné, např. druh slova volbu gramatické kategorie, popř. jiného druhu slova (substantivum volbu adjektiva apod.).

Vazby, spojení existují nejen mezi jednotlivými proměnnými v textu, ale i mezi textem a těmito proměnnými. Uvedla jsem již prvních deset nejvíce frekventovaných slov, která nacházíme v současné publicistice (pozn. 8). Ukázalo se, že tato slova svědčí o stylové příslušnosti textů,[23] ačkoli jde o slova gramatická, jejichž vazby s textem nebývají obecně uznávány.[24]

K posouzení vazby mezi textem a jeho slovní zásobou srovnejme ještě prvních deset nejfrekventovanějších substantiv a adjektiv v současné publicistice, tedy slov plnovýznamových, spojených i navzájem lexikálně, morfologicky a syntakticky.

Rank	P	F	FSČ
1.	rok	práce	pán/pan
2.	práce	strana	život
3.	lidé	Praha	člověk
4.	léta	rok	práce
5.	strana	den	ruka
6.	organizace	lid	den
7.	úkol	vláda	země
8.	doba	závod	lidé
9.	den	doba	doba
10.	život	léta	hlava

Vazba s textem ukazuje se zejména u těchto substantiv: rok, léta (tj. časové údaje ve zprávách apod.), strana (významný činitel v životě politickém a hospodářském), [104]úkol, organizace (častá tematika v publicistice současné).[25] S klesající frekvencí přibývá substantiv, která jsou pro publicistiku příznačná: závod, výbor, pracovník apod. U slov s frekvencí nejnižší (10—1) nacházíme hojně substantiv, která jsou podmíněna nejen tematikou a funkčním stylem, ale i stylem autora. To je ovšem jev celkem typický, zejména pro slova plnovýznamová.[26]

Všimněme si ještě prvních deseti nejvíce frekventovaných adjektiv a jejich vazby s textem:

Rank	P	F	FSČ
1.	další	nový	celý
2.	socialistický	velký	jiný
3.	nový	národní	velký
4.	celý	celý	nový
5.	národní	sovětský	starý
6.	sovětský	pracující	národní
7.	velký	jiný	český
8.	jiný	další	dobrý
9.	mladý	český	větší
10.	dobrý	americký	mladý

Z uvedeného přehledu se ukazuje vázanost některých nejfrekventovanějších adjektiv v publicistice jednak na text, jednak na substantiva, např. socialistický (práce, člověk), národní (výbor), sovětský (člověk, svaz), politický (organizace, práce) apod. Srovnání s nejfrekventovanějšími adjektivy ve FSČ však ukazuje, že např. adjektivum národní zřejmě nepatří jen do jazyka publicistiky, hojně se vyskytuje i v textech odborných. Zvláštní zmínky zaslouží v současné publicistice nejvíce frekventované adjektivum další, slovo víceméně odkazovací (patřící do suprasyntaxe) se zřetelem k místu a času, naznačující pokračování apod.[27]

U adjektiv je ovšem třeba počítat s vázaností i na slovesa, i když podle našeho šetření je tento podíl v jazyce publicistiky relativně malý, asi 10 % (nejčastěji je to funkce jmenné části přísudku, asi 4 %), v 90 % zastávají adjektiva syntaktickou funkci atributu.

Na všech třech uvedených příkladech nejfrekventovanějších slov, substantiv a adjektiv, pokoušela jsem se ukázat, že pro posouzení, která slova a jak jsou vázána na text i na sebe navzájem, je třeba srovnávat je s FSČ a v daném případě s jeho publicistickou skupinou F, tj. srovnávat se s jistou „normou“.

5. „Norma“ pro hodnocení výsledků kvantitativní analýzy

„Norma“ v kvantitativní lingvistice, na rozdíl od normy jazyka, je číselná veličina, která slouží k srovnávání různých textů, ev. množin, skupin textů (srov. též U. Pieperová, o.c. v pozn. 10, zvl. s. 74n.). Odchylky od „normy“, popř. shoda s ní může náležitě zhodnotit výsledky, k nimž jsme při kvantitativní analýze došli. [105]Nevýhodou termínu norma ovšem je, že se pojem jím označovaný neshoduje s normou jazyka, tj. s vžitým termínem (odlišení uvozovkami je zatím řešení nouzové). Kromě toho je nevýhodné, že se jako „norma“ mohou v kvantitativní lingvistice označovat dva pojmy: (1) v podstatě statistický průměr, s nímž srovnáváme výsledky dílčí statistické analýzy (v našem případě je to FSČ), (2) jednotka míry daného jevu (v našem případě skupina textů F (publicistických) z FSČ).

Kdybychom pro naši práci v kvantitativní lingvistice neměli srovnání s „normou“ FSČ, popř. s některou z jeho skupin, těžko bychom mohli posoudit, zda jsou dosažené výsledky pro danou oblast (v našem případě jazyk stylu publicistického) typické, anebo platí-li pro celou oblast jazyka apod. Zde se také uplatňuje rozdíl ve srovnání s normou — průměrem (v podstatě lze hodnotit jen odchylky „nahoru“ a „dolů“) a s normou jako jednotkou míry, kdy nám jde spíše o shodu, kdy můžeme prohlásit, že daný jazykový jev je pro danou množinu textů, pro jazyk daného stylu apod. příznačný (srov. výše frekvenci deseti nejčastějších slov, substantiv a adjektiv).

Doložme si dané tvrzení na příkladě rozložení druhů slov, která představují přechodnou problematiku lexikální a gramatickou.

Frekvence druhů slov
Druh slova	P		F	FSČ
Druh slova	počet	%	%	%
subst.	60 370	33,54	35,11	27,77
adj.	31 720	17,63	15,37	11,16
zájm.	9 040	5,02	7,18	10,91
čísl.	1 930	1,07	1,77	1,61
slovesa	25 180	13,99	13,35	18,15
adverbia	15 750	8,75	7,34	10,29
předl.	20 650	11,47	11,73	10,12
spojky	14 570	8,10	8,13	9,78
citosl.	70	0,03	0,02	0,21
částice	720	0,40	—	—
Σ	180 000	100,—	100,—	100,—

Tab. č. 1

Na první pohled se ukazuje převaha substantiv v publicistice (jak ukazuje srovnání s F), celkový průměr v češtině (podle FSČ) je výrazně nižší (28 %). Sloves je v publicistice méně, než je celkový průměr v češtině (18 %), i když podstatně méně než substantiv. Obojí tyto výsledky můžeme opřít o srovnání s jednotkami míry pro publicistiku (tj. srovnání s F).

Diference ve frekvenci u adjektiv, zájmen, číslovek a adverbií lze vyložit poněkud odchylným pojetím jednotky u těchto druhů slov: zájmena a číslovky, které mají adjektivní skloňování, např. každý, první apod., jsou v P zařazeny mezi adjektiva, číslovky adverbiální povahy, např. mnohokrát apod., jsou zařazeny mezi adverbia. Jinak ovšem frekvence adjektiv je v publicistice vyšší (srovnání P a F), než je průměr v českém jazyce (srovnání s FSČ).

Pokud jde o slova neohebná, předložky a spojky, jsou zjištěné výsledky celkem shodné s F i FSČ. U předložek v P — na rozdíl od F a FSČ — vzrostl počet předložek [106]nevlastních,[28] ač se číselně výrazněji neprojevil. Je to způsobeno zejména tím, že počet nevlastních předložek má relativně omezenou frekvenci, i když v publicistice významnou. Toto tvrzení nelze zatím dobře opřít o srovnání s „normou“ (F ani FSČ), protože se tu nevlastní předložky většinou nezaznamenávaly, kromě toho nebyly ještě na takovém stupni konstituovanosti, jako je tomu v současnosti.

Srovnejme dále frekvenci pádů u substantiv v současné české publicistice.

Frekvence pádů substantiv
Sg.	Pád	P		F	FSČ
Sg.	Pád	Počet	%	%	%
	1.	9 928	23,96	27,94	29,71
	2.	12 116	29,24	27,97	22,32
	3.	1 672	4,04	4,70	4,52
	4.	7 779	18,77	16,86	19,80
	5.	88	0,21	0,11	2,32
	6.	6 338	15,30	13,64	11,23
	7.	3 514	8,48	8,78	10,10
Σ		41 435	100,—	100,—	100,—

Tab. č. 2

Frekvence pádů substantiv
Pl.	Pád	P		F	FSČ
Pl.	Pád	Počet	%	%	%
	1.	3 672	21,58	22,43	24,56
	2.	6 918	40,67	38,60	31,26
	3.	682	4,01	5,05	4,26
	4.	3 081	18,10	16,03	20,15
	5.	22	0,13	0,28	0,79
	6.	1 456	8,56	10,37	9,79
	7.	1 182	6,95	7,24	9,19
Σ		17 013	100,—	100,—	100,—

Tab. č. 3

Na rozdíl od rozložení druhů slov jsou tu relativně větší diference mezi P a F i FSČ. Nápadný je rozdíl ve frekvenci nom. sg. (asi 4 %). Bude třeba hledat vysvětlení tohoto faktu. Zatím se ukazuje řešení přihlédnout k syntaktické funkci nominativu. Jak [107]dokládá tabulka č. 4, z 1 000 substantiv v nominativě zastává 63 % funkci subjektu, 16 % funkci apozice, 12 % funkci atributu; všechny ostatní funkce mají frekvenci podstatně nižší.

Nominativ
Synt. funkce	Počet	%
1 (subj.)	634	63,40
23 (pred. se sponou)	31	3,10
31 (atr.)	118	11,80
32 (apozice)	161	16,10
42 (doplněk)	16	1,60
53 (adv. způs.)	11	1,10
61 (zákl. jednočl. věty subst.)	21	2,10
8 (samost. v. člen)	4	0,40
9 (parenteze)	4	0,40
Σ	1000	100,—

Tab. č. 4

Poznámka: Kód k synt. funkcím platí i pro tab. č. 5 a 6.

Jsou tu ovšem rozdíly mezi frekvencí syntaktických funkcí nominativu v singuláru (tab. č. 5) a v plurálu (tab. č. 6).

Nominativ singuláru
Synt. funkce	Počet	%
1	476	58,84
23	30	3,71
31	112	13,84
32	148	18,30
42	13	1,61
53	8	0,99
61	14	1,73
8	4	0,49
9	4	0,49
Σ	809	100,—

Tab. č. 5

Pokud jde o distribuci frekvence syntaktických funkcí nom. sg. (tj. 80,9 % z 1 000 nominativů), převládá funkce subjektu (v 59 %), i když ne tak výrazně, jako je tomu v plurálu (tj. 19,1 % z 1 000 nom.) — 83 %. Zatímco v sg. je ještě poměrně [108]významná frekvence nom. ve funkci apozice (18 %) a atributu (14 %), v plurálu se výrazněji (číselně) projevila jen funkce apozice (7 %).

Nominativ plurálu
Synt. funkce	Počet	%
1	158	82,72
23	1	0,53
31	6	3,14
32	13	6,81
42	3	1,57
53	3	1,57
61	7	3,66
8	—	—
9	—	—
Σ	191	100,—

Tab. č. 6

Z uvedené analýzy a srovnání lze zatím usoudit (nemáme bohužel srovnání s FSČ, který syntaktické jevy nezaznamenával), že v nom. sg. ustupuje v současné publicistice vyjadřování subjektu — a zatím lze jen vyslovit domněnku, že je to na prospěch akuzativu, vyjadřování objektu. Ale to bude třeba doložit podrobnou analýzou. Naše práce bude znesnadněna tím, že zatím nemáme srovnání, pokud jde o rozložení syntaktických funkcí jednotlivých slovních druhů a jejich tvarů. Stejné problémy budeme mít při hodnocení ostatních syntaktických jevů, např. délka věty, poměr vět jednoduchých a souvětí, druhy vět vedlejších apod. Pomoc tu mohou poskytnout dílčí šetření, která byla již dříve podniknuta v oddělení matematické lingvistiky ÚJČ.[29]

Chybí-li potřebná „norma“ při kvantitativní analýze, může tu být pomocným řešením i srovnání jednotlivých textů, popř. jejich skupin navzájem: Sledujme např. délku věty ve dvou textech, č. 1 (Rudé právo ze dne 7. 9. 1971) a č. 7 (Československý rozhlas, č. 35, na dny 21.—27. srpna 1972).

(1) Pokud měříme délku věty ve slovech, grafických jednotkách, zjišťujeme ve větě jednoduché:

Text	Minim. délka věty		Maxim. délka věty		Nejvíce
č.	slov	vět	slov	vět	vět	slov
1	2	1	31	1	11	6
7	1	1	32	1	10	9

Tab. č. 7

[109](2) Měříme-li délku věty v predikačních jednotkách, zjišťujeme:

Text	Minim. délka věty		Maxim. délka věty		Nejvíce
č.	slov	vět	slov	vět	vět		slov
1	3	1	30	1		10		6
						8		9
7	1	1	31	1		8		14

Tab. č. 8

Pokud jde o souvětí,

(1) měřeno ve slovech, grafických jednotkách:

Text	Minim. délka souvětí		Maxim. délka souvětí		Nejvíce
č.	slov	vět	slov	vět	vět		slov
1	3	1	> 50	4		13		6
						13		12
7	3	1	> 50	3		12		17

Tab. č. 9

(2) měřeno v predikačních jednotkách:

Text	Minim. délka souvětí		Maxim. délka souvětí		Nejvíce
č.	slov	vět	slov	vět	vět	slov
1	3	1	50	1	14	6
7	3	1	47	1	14	19

Tab. č. 10

Porovnáním uvedených tabulek můžeme konstatovat, že rozdíly mezi oběma texty jsou největší, zejména v souvětí, v počtu slov připadajících na maximální, resp. relativně největší počet vět, a to bez zřetele k tomu, jakou jednotku při měření délky [110]uplatníme. Naproti tomu jsou výrazné shody v minimální i maximální délce věty (jednoduché i souvětí), opět bez zřetele k jednotce souboru. Daná zjištění bude třeba ověřovat na větším počtu případů, a to porovnávacím postupem.

Uvedené příklady měly mimo jiné demonstrovat, jaký význam má porovnávání výsledků, popř. i jednotlivých textů v kvantitativní analýze, při kvantifikaci. Ovšem metoda srovnávání nezáleží v „příkladování“,[30] nýbrž „v takovém uplatnění kategorie totožnosti a rozdílu, které prohlubují poznání — od vnějškovosti jevů až k poznání a k nalezení podstaty zkoumaných jevů“ (s. 59). Při tom není snadné zjišťovat totožnost a rozdíly, zejména v jejich protikladu, volit správně znaky pro srovnání, je třeba zvládnout nejen kategorii totožnosti a rozdílu, ale i dialektiku obecného, zvláštního a jedinečného.[31]

6. Vztah empirie a teorie

Je známo, že vztah teorie a empirie představuje různé úrovně našeho poznání. V. I. Lenin charakterizoval toto poznání jako cestu „od živého nazírání k abstraktnímu myšlení a od něho k praxi“.[32] Teorii a empirii nelze od sebe odtrhávat, je třeba je chápat v dialektické jednotě. Empirie je článkem vědeckého poznání, který spojuje teorii s objektivní realitou. Teorie a empirie se navzájem předpokládají a podmiňují a plně to platí i pro kvantitativní lingvistiku. Cílem naší práce není sběr čísel a faktů, nýbrž jejich analýzou a studiem poznat zákonitosti fungování jazykových jevů, jejich vztahů a vazeb, podat hlubší a ucelenější obraz o jazyce. Je ovšem nutno počítat s jistou omezeností empirie, danou tím, že toto poznání, vycházející z omezeného počtu vztahů apod., není vždy s to proniknout do podstaty jevů, jazyka, nalézt jejich systémové spojitosti apod. K překonání těchto mezí empirie je třeba přejít k teoretickému poznání, vytvořit příslušné pojmosloví apod. Teorie a empirie jsou tedy dvě kvalitativně rozdílné pojmové formy vyjádření pro různé úrovně vědeckého výzkumu a poznání.[33] Empirické a teoretické poznání mají své specifické zvláštnosti, nelze je však od sebe odtrhovat, absolutizace jednoho z nich je vždy nebezpečná. Platí to plně i pro kvantitativní lingvistiku.

Závěr: Pokusila jsem se ukázat několik problémů spjatých s pojmem kvantifikace v lingvistice, které jsou vesměs otevřené a vyžadovaly by samostatného zpracování i dalšího studia. Jak problémy obecné, tak speciální (doložené několika příklady z kvantitativní analýzy jazyka publicistiky) se týkají samé podstaty dané disciplíny, a proto vyrovnání se s nimi pokládám za tím naléhavější. Většinou jsou to i problémy komplexní, interdisciplinární, jejichž řešení nezávisí jen na lingvistice.

R É S U M É

Über einige Probleme der Quantifizierung von sprachlichen Erscheinungen

Die Autorin behandelt in ihrem Aufsatz folgende Probleme:

(1) Sie erläutert den Fachausdruck Quantifizierung als Charakterisierung der qualitativ abgegrenzten sprachlichen Erscheinungen und ihrer Wechselbeziehungen mit Hilfe von quantitativen Angaben; die Grundlage dafür bietet die Ermittlung ihrer Anzahl im Sprachsystem, ihrer Vorkommenshäufigkeit (Frequenz), die Feststellung ihrer Reihenfolge, die Messung an[111]hand ihrer verschiedenen Merkmale u.dgl. Der Begriff der Quantifizierung wird nicht einheitlich aufgefaßt; erforderlich ist dessen weitere Durcharbeitung, zumindest in der Linguistik.

(2) Im Hinblick auf das dialektische Verhältnis von Qualität und Quantität ist es zur vollständigen Erkenntnis der Sprache als Bestandteil der objektiven Realität notwendig, sowohl ihre qualitative als auch quantitative Seite zu kennen. Daraus ergibt sich auch de Beziehung zwischen der qualitativen und quantitativen Analyse in der Linguistik.

(3) Nicht geklärt ist das Verhältnis zwischen der sog. Zählung und Messung, und zwar nicht nur in der quantitativen Linguistik. Das steht u.a. im Zusammenhang mit der Auffassung des Zeichens; in der Statistik und Logik unterscheidet sie sich von der Zeichenauffassung in der Linguistik. In der quantitativen Linguistik ist die Ausnutzung beider Operationen, der Zählung und Messung, ins Auge zu fassen und zu durchdenken.

(4) Bei der quantitativen Analyse tritt die sprachliche Einheit (z.B. Wort und Satz bzw. auch andere Einheiten) als Variable auf. Unter Text versteht man eine — geschriebene oder gesprochene — sprachliche Äußerung, die eine endliche Menge von linear angeordneten diskreten Größen (sprachlichen Elementen) darstellt.

(5) Die „Norm“ in der quantitativen Linguistik ist — im Gegensatz zur Norm überhaupt — eine numerische Größe, die zum Vergleich von verschiedenen Texten bzw. Textsorten, zur Bewertung der Ergebnisse der statistischen Analyse dient. Sie bezeichnet zwei Begriffe: (a) im wesentlichen das statistische Mittel, mit dem die Ergebnisse der statistischen Teilanalyse (z.B. die Daten des Frequenzwörterbuchs) verglichen werden; (b) die Maßeinheit für die gegebene Erscheinung (so dient z.B. die Menge der publizistischen Texte (F) im tschechischen Frequenzwörterbuch (FSČ) als Maßstab für die Beurteilung der Ergebnisse der quantitativen Analyse der Sprache der gegenwärtigen Publizistik (P), die in dem Aufsatz zur Illustration der Ausführungen angeführt werden).

(6) Theorie und Empirie als gnoseologische Operationen stellen unterschiedliche Ebenen unserer Erkenntnis dar, die sich gegenseitig voraussetzen und bedingen. Das Ziel der quantitativen Linguistik besteht nicht darin, Zahlwerte und Fakten zu sammeln, sondern durch ihre Analyse und Erforschung die Gesetzmäßigkeiten des Fungierens der sprachlichen Erscheinungen und ihrer Wechselbeziehungen aufzudecken und eine tiefergreifende und fester geschlossene Darstellung der Sprache zu entwerfen.

[*] Článek je přepracovaným zněním referátu, který byl pod stejným názvem přednesen dne 12. února 1976 na vědeckém semináři Ústavu pro jazyk český ČSAV.

[1] Srov. např. V. Fabián, Základní statistické metody, Praha 1963; J. Hájek, Teorie pravděpodobnostního výběru s aplikacemi na výběrová šetření, Praha 1960 aj.

[2] Např. v německém matematickém slovníku J. Nass - H. L. Schmid, Mathematisches Wörterbuch I, II, Berlin - Leipzig 1961.

[3] Srov. O. Zich a kol., Moderní logika, Praha 1958, zvl. s. 82n. a 142n.

[4] Filosofskaja encyklopedija, Moskva 1962, s. v. kačestvo.

[5] Výklad pojmu kvantifikace byl upraven s přihlédnutím k diskusním příspěvkům prof. K. Horálka, dr. M. Dokulila, doc. P. Nováka.

[6] Diskusi, která probíhala v l. 1971—1974, vyvolal podnětný čl. logika K. Berky K pojetí měření v československé sociologii, Sociologický časopis 7, 1971, 545—558. Zvláštní význam této diskuse spočívá v tom, že se jí zúčastnili logikové, matematici a filozofové a že její závěry mají značně obecný dosah; budu k nim proto i dále ve svém článku přihlížet.

[7] J. Řehák, K pojmu znak v sociologii (Pokus o formální definici, klasifikaci a vymezení vztahu k problematice měření), Sociologický časopis 8, 1972, 615—625.

[8] Tyto i další statistické údaje uváděné v tomto článku pocházejí z práce oddělení matematické lingvistiky Ústavu pro jazyk český ČSAV „Kvantitativní analýza (gramatická a lexikální) současné psané a mluvené češtiny“, dosud zpracován jazyk současné publicistiky z let 1971 až 1974. Práce je dílem kolektivu, J. Kraus, L. Uhlířová, M. Ludvíková, I. Nebeská, J. Králík, H. Jelenová, A. Jiroutová, vedeného M. Těšitelovou.

[9] J. Jelínek - J. V. Bečka - M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961, dále jen FSČ; pro srovnání s výsledky kvantitativní analýzy jazyka současné publicistiky (P) s jazykem publicistiky z let 1946—1950, o niž se opírá FSČ (dále F).

[10] K tomu srov. např. U. Pieper, Differenzierung von Texten nach numerischen Kriterien, Folia linguistica, Acta Societatis Linguisticae Europaeae, Tom. VII, 1975, č. 1—2, s. 61—113.

[11] G. Herdan, On Communication between Linguists, Linguistics 1964, č. 9, s. 71—76.

[12] M. Těšitelová, O morfologické homonymii v češtině, Praha 1966, zvl. s. 14n.

[13] M. Illner, Poznámka k měření v sociologii, Sociologický časopis 8, 1972, 515—526.

[14] Srov. P. Novák, Význam kvantitativních metod pro lingvistiku, sb. Cesty moderní jazykovědy, Praha 1964, s. 126.

[15] J. Krámský, K otázce poměru kvalitativní a kvantitativní stránky jazyka (na příkladech z fonologie), SaS 34, 1973, 254—257.

[16] J. Řehák, Definice měření ve společenských vědách, Sociologický časopis 7, 1971, 638—648, zvl. s. 644.

[17] Srov. např. F. de Saussure, Cours de linguistique générale, 2. vyd. Paris 1922; L. Hjelmslev, Jazyk, Praha 1971; V. A. Zvegincev, Problema znakovosti jazyka, Moskva 1956; K. Horálek, Filozofie jazyka, Praha 1967, zvl. s. 100—103, aj.

[18] R. M. Frumkina, Rol’ statističeskich metodov v sovremennych lingvističeskich issledovanijach, sb. Matematičeskaja lingvistika, Moskva 1973, s. 156—183.

[19] Srov. M. Těšitelová, Kvantitativní lingvistika (skripta) — v tisku.

[20] Srov. např. K. Horálek, Zákonitost, účelnost a nahodilost ve vývoji jazyka, sb. Studia linguistica in hon. ac. S. Mladenov, Sofia 1957, s. 539—543.

[21] Srov. např. M. Těšitelová, Otázky lexikální statistiky, Praha 1974; nejnověji pak J. Sambor, O słownictwie statystycznie rzadkim, Warszawa 1975.

[22] K tomu srov. např. K. Horálek, Zobrazení v jazyce a v textu, SaS 28, 1967, 350—355; H. Isenberg, Texttheorie und Gegenstand der Grammatik, Berlin 1972 a další literatura tam uvedená; této srov. též K. Hausenblas, Výstavba jazykových projevů a styl, Praha 1971 aj.

[23] M. Těšitelová, On the Frequency of Function Words, PSML 5 1976, 9—28.

[24] Srov. např. J. V. Bečka, Lexikální složení českých odborných textů I, Praha 1973, II, Praha 1976.

[25] Jsou to slova, která P. Guiraud označuje jako „slova klíčová“ (mots-clefs), Les caractères statistiques du vocabulaire, Paris 1960.

[26] Srov. M. Těšitelová, o. c. v pozn. 21, s. 93n.

[27] Příklady uváděné v tomto článku mají ilustrativní charakter, a proto je rozbírám jen pro potřeby výkladu. Jejich podrobná analýza bude provedena a publikována jinde, a to i s přihlédnutím k jiným faktorům, srov. např. J. Kraus, K statistickému rozboru publicistického stylu, SaS 30, 1969, 371—379.

[28] Srov. L. Kroupová, K synchronnímu pojetí českých nevlastních předložek při lexikografickém zpracování, SaS 32, 1971, 225—231.

[29] Srov. např. M. Königová, On Statistical Dependence in Syntax, PSML 3, 1972, 45—62.

[30] Jindřich Filipec, Srovnání a poznání, Sociologický časopis 11, 1975, 58—68.

[31] K tomu srov. též M. Dokulil, O vyjadřování jedinosti a jedinečnosti v českém jazyce, NŘ 53, 1970, 1—15.

[32] V. I. Lenin, Spisy, sv. 3, Praha 1952.

[33] R. Rychtařík, Empirie a teorie v sociologii, Sociologický časopis 11, 1975, 225—237.

Slovo a slovesnost, volume 37 (1976), number 2, pp. 98-111

Previous Roman Mrázek: Problematika tzv. hierarchizace propozice

Next Rudolf Šrámek: Slovotvorný model v české toponymii

Menu
About
Archive
New Journal Home
Archive search: