en cz

Mandelbrotův zákon a sémantické třídy

Martin Friš

[Articles]

Mandelbrot’s Law and semantic classes

1. Úvod

V článku „Příspěvek k objektivizaci sémantických tříd“ (1992)[1] jsme na základě materiálu frekvenčního slovníku pro český jazyk Jelínek – Bečka – Těšitelová (1961) poukázali na to, že i slova spadající do jedné sémantické třídy splňují Zipfův zákon. V nynějším článku nám půjde o prohloubení tohoto poznatku na dalším materiálu.

Zatímco frekvenční slovník Jelínek – Bečka – Těšitelová (1961) zpracoval rozsáhlý materiál na základě 75 různých textů, v tomto článku zpracováváme pouze jediný text. Výsledky tím budou konkrétnější a hmatatelnější.

V této souvislosti novým způsobem řešíme otázku stanovení sémantické třídy. (Připomeňme, že do jedné sémantické třídy zařazujeme slova blízká si svým významem; Friš, 1992.) Vybereme-li odborný, vědecký text, pak do jedné sémantické třídy zařadíme všechny odborné termíny. Jako odborné termíny chápeme ty, které jsou shrnuty v rejstříku knihy. Tak dosáhneme objektivity výběru, aspoň v tom smyslu, že zařazení do sémantické třídy není vytvářeno subjektivním rozhodnutím autora tohoto článku.

K našemu experimentu jsme vybrali matematickou knížku Úvod do teorie grafů od Jiřího Sedláčka (1981).

Po zpracování sémantické třídy matematických termínů v daném textu se vyskytujících jsme zjistili, že platí: Jestliže z termínů sestavíme frekvenční slovník, pak pro tento seznam platí Mandelbrotův zákon (Mandelbrot, 1964). Abychom tento výsledek zařadili do pevného a zřetelného rámce, zkoumali jsme proto, zda celý text analyzované knihy také splňuje Mandelbrotův zákon, a podařilo se nám tento předpoklad ověřit.

Můžeme tedy shrnout, že text Sedláčkovy knihy splňuje Mandelbrotův zákon a jistá podle jasného kritéria vybraná podmnožina slov také Mandelbrotův zákon splňuje. Domnívám se, že toto shrnutí vyhovuje naší intuici a že tento výsledek není překvapující. Výsledek můžeme parafrázovat tak, že v textu jsou slova s podobným významem rozptýlena rovnoměrným způsobem a nevytvářejí se nápadné shluky či naopak mezery, když příslušná slova seřadíme do frekvenčního slovníku.

2. Srovnání Zipfova a Mandelbrotova zákona

Zipfův a Mandelbrotův zákon se týká frekvenčního slovníku, který získáme zpracováním nějakého textu, a vyjadřuje vztah mezi frekvencí slova f a jeho pořadím (rankem) r, jestliže slova uspořádáme do seznamu podle klesající frekvence. Zipfův zákon zní:

f = konst. / r

Zipfův zákon autor doložil v obsáhlé práci (Zipf, 1949). V letech 1952–1954 nalezl B. Mandelbrot (1964) zobecnění tohoto zákona ve tvaru:

f = K / (r + V) exp B

[114]kde K, B, V jsou konstanty charakteristické pro daný text. Zipfův zákon je tedy zvláštním případem Mandelbrotova zákona pro hodnoty konstant B = 1, V = 0. U nás se Zipfovým zákonem zabývala mimo jiné Těšitelová (1992, s. 50–53).

Mandelbrotovo zobecnění byl krok správným směrem, neboť se ukázalo, že Zipfův zákon v původní podobě neplatí pro všechny texty, ale jen pro některé. Proto také bylo o obecné platnosti Zipfova zákona právem pochybováno. Ukázalo se, že platí jen pro texty s bohatou slovní zásobou. Mandelbrotův zákon toto omezení překonává, a různé hodnoty exponentu B dovedou vystihnout různé typy textů.

Dalším kladem Mandelbrotova zákona je, že autor podal jeho důkaz. Tento matematický důkaz je reprodukován a rozveden v diplomové práci V. Valoucha (1970). Vzorec dostaneme, jestliže hledáme optimalizaci informace (podle Shannona) a vyřešíme příslušný matematický optimalizační problém. Oproti tomu Zipf důkaz svého zákona nepodal a jeho kniha (1949) obsahuje jen verbální úvahy na toto téma.

V tomto článku aplikujeme Mandelbrotův zákon. Získané výsledky by se použitím Zipfova zákona nedaly potvrdit, neboť používáme exponent B > 1.

3. Výsledky zpracování Sedláčkova textu

Mandelbrotův zákon je statistické povahy a proto, aby se jeho zákonitost projevila, je třeba zpracovat větší množství textu (měřeno počtem slov). Odborný text má tu výhodu, že jeho slovní zásoba je relativně úsporná (ve srovnání s kontrolním textem beletrie). Pro takovýto text ve slovníku omezený stačí pro ověření platnosti Mandelbrotova zákona zpracovat menší rozsah textu než pro texty s bohatší slovní zásobou.

Nyní uvedeme konkrétní číselné údaje o zpracovávaném textu. Zpracovali jsme stránky 26 až 100, které obsahovaly celkem 16 021 (N) výskytů slov. Do textu jsme nezahrnuli texty cvičení za jednotlivými kapitolami, ani používané matematické symboly a vzorce. Slovní zásoba z excerpovaných stránek obsahovala 1479 různých slov (V). Poměr těchto dvou čísel V/N = 1479/16021 charakterizuje bohatství slovní zásoby textu. Výzkumem otázek spojených s tímto pojmem se zabýval P. Guiraud, který dospěl ke složitějšímu vzorci

R = V/√N

Pro účely tohoto článku postačí výše použitý jednodušší vzorec. Podrobněji se Guiraudovým vzorcem pro R zabývá Těšitelová (1992, s. 76–78). Bohatství slovníku zde zkoumaného vědeckého textu je, jak už jsme naznačili, nižší než u kontrolního textu beletrie, kterým je Řezáč, Rozhraní. Tato situace je obvyklá.

Je-li bohatství slovníku nižší, stačí zpracovat menší rozsah textu, aby se platnost Mandelbrotova zákona projevila. Je-li bohatství slovníku vyšší, jako je tomu u textů beletrie, rozsah textu musí být objemnější, aby byl Mandelbrotův zákon splněn.

Frekvenční slovník celého textu uvádíme v tab. 1. Vzhledem k rozsahu materiálu se musíme ovšem omezit jen na výběr. Vybíráme jen každé 60. slovo, u nižších pořadových čísel volíme výběr podrobnější, jak je vidět z pořadových čísel. Prosíme čtenáře, aby si představil a v myšlenkách se pokusil doplnit neuvedené úseky, neboť tendence číselná je jasná.

Je pochopitelné, že teoretické a empirické hodnoty nejsou identické, ale že jsou mezi nimi jisté odchylky. Pro vyhodnocení těchto odchylek, abychom mohli říci, zda můžeme přijmout hypotézu, že Mandelbrotův zákon vystihuje empirické hodnoty, jsme použili klasický statistický test χ². Dobrý výklad je podán např. u Reisenauera (1970). Pro jeho využití v lingvistice viz též Těšitelová (1992, s. 59–60).

[115]Je známo, že shoda frekvence vypočítané podle Mandelbrotova zákona a nalezených empirických frekvencí je dobrá jen v pásmu nízkých a středních frekvencí. Pro první pořadová čísla, kde jsou frekvence nejvyšší, není již shoda dobrá. Proto jsem pro aplikaci testu χ² vyřadil prvních 53 nejfrekventovanějších slov. Ostatních 1426 slov jsem pro výpočet shody rozdělil do 25 skupin po 57 slovech a první skupina obsáhla 58 slov.

Jak už řečeno, Mandelbrotův zákon, který je zobecněním Zipfova zákona, zní

f = K / (r + V) exp B

kde f je frekvence slova, r je rank (pořadí) a K, B, V jsou konstanty příslušné pro daný text.

Pro stanovení konstant K, B, V jsme provedli sérii výpočtů, abychom stanovili jejich konkrétní hodnoty, a to takové, aby byla dobrá shoda mezi hodnotami empirickými a vypočtenými pro text Sedláčkův. Tento kalibrační proces nás vedl k nalezení hodnot

K = 7600, B = 1.22, V = 4

Při takto zvolené kalibraci konstant hodnota testu χ² je 17.767. Rozhodující je, že vypočtená hodnota testu χ² je menší než tabulková hodnota pro 24 stupňů volnosti při hladině významnosti 10 %. Tato hodnota podle tabulek je 33.196, viz např. Sadowski (1975). Znamená to tedy, že hypotézu shody empirických a teoretických hodnot můžeme přijmout.

Ke kalibraci chceme poznamenat podstatnou věc, a to, že vzorec Mandelbrotova zákona je funkce spojitá a stabilní. To znamená, že malé odchylky od nalezených hodnot dají nové výsledky, ale ležící blízko dosavadního výsledku. Tak změna konstanty K o stovky a exponentu B o setiny dají výsledek ležící blízko dosavadnímu výsledku. Je tedy rozumnější dívat se na nalezené kalibrační konstanty K, B, V jako na reprezentanty jisté oblasti stability, než připisovat jim nějaký absolutní neměnný význam, protože hodnoty konstant trochu pozměněné dají podobný přijatelný výsledek.

4. Sémantická třída matematických termínů

Jak jsem se už zmínil, pro sestavení slovníku matematických termínů byl jako nezávislý zdroj použit věcný rejstřík zpracovávané knihy J. Sedláček (1981). Víceslovné termíny v rejstříku jsme rozdělili na jednotlivá slova a každé slovo jsme zařadili do seznamu zvlášť. Takto jsme rejstřík převedli do seznamu (podle abecedy), v němž se vyskytují pouze jednotlivá slova. Tento seznam obsahuje celkem 200 slov. Z toho se ve zpracovávaném rozsahu textu (stránky 26–100) s nenulovou frekvencí vyskytuje 109 slov.

V daném rozsahu textu bylo nalezeno 2849 výskytů matematických termínů, což činí 17.8 % celého textu. Je vidět, že je zde dosaženo velké sevřenosti vybrané podmnožiny textu.

Relativně velký počet výskytů těchto slov dává naději, že takto jsme získali dostatečný materiál, na kterém můžeme také ověřovat platnost Mandelbrotova zákona.

Frekvenční slovník matematických termínů uvádíme v tab. 2. Pro ověření shody mezi hodnotami empirickými a teoretickými jsem opět použil test χ². Rozdělil jsem frekvenční seznam na 22 skupin po 4 slovech. Prvních 18 nejfrekventovanějších slov jsem tedy do testu nezahrnul, neboť tam již shoda není dobrá.

Další série kalibračních výpočtů pro sématickou třídu matematických termínů stanovila hodnoty konstant, a to

K = 6900, B = 1.76, V = 4

Při takto zvolené kalibraci konstant hodnota testu χ² je 8.275. Tabulková hodnota pro 21 (= 22 – 1) stupňů volnosti při hladině významnosti 10 % je 29.615. Znamená to tedy, [116]že hypotézu shody empirických a teoretických hodnot (s výjimkou prvních 18 slov) můžeme přijmout.

Výsledky jsou uvedeny v tab. 2.

To, že nynější hodnota exponentu B je 1.76, tedy značně vyšší než předcházející hodnota B = 1.22 pro celý text, není ovšem překvapující, a to jsme očekávali. Slovní zásoba matematických termínů je jen 109 slov, vzorec musí vypočítat rozpětí frekvencí od 1 do největší frekvence 529, a tento vyšší gradient se dá vystihnout vyšší hodnotou exponentu B, ve srovnání s výše probíraným případem. Nižší gradient průběhu frekvencí byl tu vystižen exponentem B = 1.22.

5. Poznámka ke znění Zipfova zákona

Zákon se někdy uvádí ve tvaru:

f . r = konst. (1)

a někdy (v správnějším tvaru):

f = konst. / r (2)

Na první pohled vypadají znění tohoto zákona jako ekvivalentní. Ale ke správnějším a lepším výsledkům vede (po dalším zpřesnění) formule (2).

Stačí, když si uvědomíme, že formule (2) umožňuje vypočítávat frekvenci f a že frekvence je celé kladné číslo, ne jakékoli reálné číslo. Je tedy přirozené při výpočtu f, kdy obecně dostaneme po dělení číslo reálné, odříznout desetinnou část za desetinnou tečkou a za výsledek považovat jen takto získané celé kladné číslo. (Druhá možná alternativa, ve které bychom čísla zaokrouhlovali, nedává příznivější výsledky.) Pak tedy je správnější Zipfův zákon zachytit formulí:

f = [konst. / r] (3)

kde hranaté závorky znamenají matematickou operaci – vzít celou část z reálného čísla. Takto změněné či zvýrazněné pojetí zákona nám umožní vyrovnat se s nepříznivými jevy, které se vyskytují, používáme-li Zipfova zákona ve tvaru (1).

Narážíme při tom na fakt, že konstanta vlastně není konstanta, ale číslo, o kterém nanejvýše můžeme říci, že se pohybuje v jistých mezích. Výrazný konkrétní příklad nastává v nejspodnější části frekvenčního slovníku uspořádaného podle klesající frekvence, kde se – pro konkrétnost řekněme – pro pořadová čísla r = 1500 až r = 1993 vyskytují slova s frekvencí f = 1. Potom samozřejmě „konstanta“ kolísá mezi hodnotou 1 . 1500 = 1500 až 1 . 1993 = 1993. Naproti tomu, když použijeme zákon ve tvaru (3), a zvolíme konst. = 1993, pak výpočet frekvence f dává vždy celočíselnou hodnotu 1, a dosahujeme tedy vynikající shody mezi hodnotami empirickými a teoretickými.

6. Závěr

Zpracováním frekvence slov v odborných textech a otázkami s tím souvisejícícími se zabýval Bečka (1973) a dříve i Jelínek – Bečka – Těšitelová (1961).

Zde uvedený výsledek o vztahu Mandelbrotova zákona a sémantické třídy matematických termínů není možno přeceňovat, neboť se týká jen jednoho textu. Daný výsledek by měl potvrdit anebo naopak vyvrátit další výzkum provedený na více textech. Přesto však není tento výsledek izolovaný, neboť navazuje na článek Friš (1992), kde byl podobný vztah ověřen na materiálu frekvenčního slovníku českého jazyka (1961). Nyní očekávám, že výsledek se potvrdí i pro další matematické texty. Podobně lze doufat, že tomu tak [117]bude i u textů z fyziky a chemie apod., neboť v těchto oborech jsou termíny obvykle zaváděny definicemi a mají své vyhraněné postavení. Naproti tomu by nebylo překvapením, kdyby se v textech filozofických či z oboru sociologie zde uvedený výsledek nepotvrdil. Otázka generalizace tohoto výsledku je zajímavá a zaslouží si další zkoumání. Metodika zde použitá by k tomu, podle mého názoru, mohla posloužit.

LITERATURA

BEČKA, J. V.: Lexikální složení českých odborných textů technického zaměření. Praha 1973.

FRIŠ, M.: Příspěvek k objektivizaci sémantických tříd. SaS, 53, 1992, s. 23–32.

JELÍNEK, J. – BEČKA, J. V. – TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

MANDELBROT, B.: On the theory of word frequencies and on related Markovian models of discourse. In: Structure of Language and Its Mathematical Aspects. Proceedings of Symposia in Applied Mathematics, vol. 12, American Mathematical Society 1961.

MANDELBROT, B.: Komunikace a formální struktura textů. In: Teorie informace a jazykověda. Praha 1964.

SADOWSKI, W.: Matematická štatistika. Bratislava 1975.

SEDLÁČEK, J.: Úvod do teorie grafů. Praha 1981.

TĚŠITELOVÁ, M.: Quantitative Linguistics. Praha 1992.

VALOUCH, V.: Vztahy mezi pořadím a četností kódových znaků (slov). Praha 1970. Diplomová práce.

ZIPF, G. K.: Human Behaviour and the Principle of Least Effort. Cambridge, Mass. 1949.

ZIPF, G. K.: The Psycho-biology of Language. 1. vyd. 1935, 2. vyd. M.I.T. Press 1965.

R É S U M É

Mandelbrot’s Law and semantic classes

The paper takes up an article of Friš (1992), where the concept of semantic classes was introduced. A semantic class covers words of mutually close meanings. In the present paper a special, scientific text is examined. All special terms are thus grouped into one semantic class.

We have found that the following conclusion holds good: if a frequency vocabulary consisting of special terms is compiled, then such a list of terms is subject to Mandelbrot’s Law. In order to place this outcome into a firm and lucid framework, we have examined whether the entire text of a book also complies with Mandelbrot’s Law and have successfully verified the validity of this assumption.

The above result is in agreement with ones intuition and it could be paraphrased by saying that words of similar meaning in a text are spread throughout the entire text in a homogenous, uniform manner without forming conspicuous clusters and/or voids, if arranged into a frequency vocabulary.

Further research is needed to verify the result also for other texts.

Přílohy:

Tabulka 1 a Tabulka 2.

Ve sloupci A uvádíme pořadové číslo podle klesající frekvence,

ve sloupci B příslušné slovo,

ve sloupci C nalezenou empirickou frekvenci slova v textu,

ve sloupci D teoretickou frekvenci vypočítanou podle Mandelbrotova zákona,

ve sloupci E diferenci empirické a teoretické frekvence

[118]Tabulka 1

A	B	C	D	E
1478	(2)	1	1	0
1418	Jaenischův	1	1	0
1358	cíl	1	1	0
1298	inspirovat	1	1	0
1238	myšlenka	1	1	0
1178	omlouvat	1	1	0
1118	prodloužit	1	1	0
1058	rozvinutý	1	1	0
998	symbol	1	1	0
938	vodič	1	1	0
878	zbytek	1	1	0
818	blízký	2	2	0
758	názorně	2	2	0
698	soulad	2	2	0
638	33	3	2	1
578	obarvit	3	3	0
518	16	4	3	1
498	magický	4	3	1
478	podat	4	4	0
458	terminologie	4	4	0
438	G.	5	4	1
418	pět	5	4	1
398	tvořit	5	5	0
378	zvolený	5	5	0
358	podrobně	6	5	1
338	vhodný	6	6	0
318	místo	7	6	1
298	dále	8	7	1
278	r.	8	7	1
258	odvodit	9	8	1
238	stačit	10	9	1
218	společný	11	10	1
198	vztah	12	11	1
178	odstranit	14	13	1
158	podaný	16	15	1
138	kubický	19	17	2
118	dát	24	21	3
98	dokázat	29	26	3
78	tak	36	35	1
58	pravidelný	47	49	–2
38	množina	72	79	–7
18	z	124	175	–51
10	hrana	184	303	–119
8	že	254	366	–112
6	uzel	355	457	–102
4	graf	529	601	–72
2	.	1062	854	208

[119]Tabulka 2

A	B	C	D	E
109	Betti	1	1	0
108	cena	1	1	0
107	cyklomatický	1	1	0
106	částečně	1	1	0
105	čtyřúhelník	1	1	0
104	had	1	1	0
103	koncový	1	1	0
102	rozdíl	1	1	0
101	složení	1	1	0
100	spojení	1	1	0
99	žebřík	1	1	0
98	blok	2	2	0
97	hvězda	2	2	0
96	kladný	2	2	0
95	kvaziperfektní	2	2	0
94	matice	2	2	0
93	orientovaný	2	2	0
92	sedm	2	2	0
91	trojice	2	2	0
90	trojúhelník	2	2	0
89	vzájemně	2	2	0
88	algebraický	3	2	1
87	cestující	3	2	1
86	dobře	3	2	1
85	dódekaedr	3	2	1
84	dvouprvkový	3	2	1
83	hranově	3	2	1
82	index	3	2	1
81	indukovaný	3	2	1
80	jednoznačně	3	2	1
79	magicky	3	2	1
78	metoda	3	2	1
77	obchodní	3	3	1
76	polohamiltonovský	3	3	0
75	průnik	3	3	0
74	silně	3	3	0
73	součin	3	3	0
72	čtvercový	4	3	1
71	komplementární	4	3	1
70	perfektní	4	3	1
69	průměr	4	3	1
68	rovinný	4	3	1
67	silný	4	3	1
66	vlastní	4	3	1
65	lokálně	5	4	1
64	metrický	5	4	1
63	neorientovaný	5	4	1
62	složený	5	4	1
61	uzlově	5	4	1
60	nerovnost	6	4	2
59	nulový	6	4	2
58	prostor	6	4	2
57	disjunktní	7	4	3
56	okolí	7	5	2
55	součet	7	5	2

[120]Tabulka 2 – pokračování

A	B	C	D	E
54	sousední	7	5	2
53	jednoduchý	8	5	3
52	metrika	8	5	3
51	nezáporný	8	5	3
50	prázdný	8	6	2
49	primitivní	8	6	2
48	vzdálenost	8	6	2
47	chromatický	9	6	3
46	funkce	9	7	2
45	vzorec	9	7	2
44	problém	10	7	3
43	úplný	11	7	4
42	izolovaný	12	8	4
41	eulerovský	13	8	5
40	barva	14	8	6
39	část	14	9	5
38	kvadratický	14	9	5
37	artikulace	15	10	5
36	nekonečný	15	10	5
35	čtyři	16	10	6
34	ohodnocený	16	11	5
33	přirozený	16	11	5
32	řez	17	12	5
31	kubický	19	13	6
30	sudý	20	13	7
29	lichý	21	14	7
28	lineární	21	15	6
27	člen	24	16	8
26	grafový	25	17	8
25	kostra	26	18	8
24	cesta	28	19	9
23	hamiltonovský	30	20	10
22	hranový	31	22	9
21	posloupnost	31	23	8
20	podgraf	34	25	9
19	uzlový	36	27	9
18	most	40	29	11
17	strom	40	32	8
16	tah	44	35	9
15	délka	47	38	9
14	pravidelný	47	42	5
13	komponenta	50	47	3
12	souvislost	53	52	1
11	konečný	59	58	1
10	množina	72	66	6
9	souvislý	77	75	2
8	sled	80	86	–6
7	faktor	81	101	–20
6	kružnice	83	119	–36
5	číslo	86	144	–58
4	stupeň	140	177	–37
3	hrana	184	224	–40
2	uzel	355	294	61
1	graf	529	406	123

[1] Čtenář, který by se vrátil k citovanému článku, při podrobnějším čtení nejspíše zjistí, že vzorce na straně 27, uvedené v pasáži petitem, nedávají dobrý smysl. Je to způsobeno tím, že nedopatřením z nich vypadl exponent B (resp. původně řecké beta). Prostým doplněním tohoto znaku se obnoví dobrý/správný smysl vzorců.

Slovo a slovesnost, volume 59 (1998), number 2, pp. 113-120

Previous Petr Karlík, Norbert Nübler: Poznámky k nominalizaci v češtině

Next Jan Kořenský: Analýza dynamiky konceptuální soustavy

Menu
About
Archive
New Journal Home
Archive search: