en cz

Předběžný odhad entropie a redundance psané češtiny

Lubomír Doležel

[Articles]

Предварительная оценка энтропии и избыточности в чешском письменном языке / Evaluation approximative de l’entropie et de la redondance tchèque littéraire

Shrnutí. Předkládáme výsledky pokusného výpočtu základních hodnot entropie psané češtiny získané s použitím Shannonovy metodiky ze statistických údajů o rozložení četností grafémů a jejich digramových kombinací v textech o celkovém rozsahu 140.000 grafémů (H₀ = 5,39, H₁ = 4,67, H₂ = 3,87 bitu). Pomocí predikčního pokusu se odhaduje mezní entropie H_∞ a redundance R psané češtiny (H_∞ = ⟨1,04 — 1,94⟩, R = ⟨80,73 % — 63,94 %⟩).

Teoretický smysl stati spočívá v posouzení dvou výchozích otázek lingvistické interpretace entropie a redundance: 1. Jsou tyto hodnoty charakteristikami jazyka jako celku anebo jednotlivých jazykových stylů? 2. Vykazují různé jazyky z hlediska těchto charakteristik shody anebo spíše rozdíly? Na základě zjištěných výsledků je v stati předběžně rozlišena entropie numerická, interpretovaná jako charakteristika jazyka, a entropie predikční, považovaná za charakteristiku jazykových stylů.

1. Úvod. Entropie a redundance jsou, jak známo, základní informačně teoretické charakteristiky jakéhokoli zdroje informací. Již C. Shannon aplikoval tyto pojmy na přirozený jazyk a provedl odhad entropie a redundance tištěné angličtiny.[1] Entropie jazyka shrnuje v jednom údaji pravděpodobnostní omezení vložená na posloupnost písmen v souvislých textech, čili vyjadřuje statistickou strukturaci písmenové posloupnosti. Entropie je průměrná veličina a v Shannonově teorii udává průměrné množství informace připadající na jeden symbol informačního zdroje, v případě psaného jazyka tedy na jedno písmeno souvislého textu bez ohledu na jeho četnost, pozici v slově atd. Z praktických důvodů neužíváme explicitního označení „průměrná entropie připadající na jedno písmeno psaného textu“.[2] Redundance pak udává míru předem dané informace vložené do textů právě v důsledku strukturace písmenové posloupnosti, čili to procento textu, které není nezbytně nutné k přenosu informace. Vzorec pro výpočet redundance stanovil Shannon tak, aby hodnota redundance byla nezávislá na počtu písmen abecedy; z toho důvodu je redundance velmi vhodnou hodnotou pro strukturně typologické srovnávání různých jazyků.

Jak známo, obtíže přímého (numerického) stanovení entropie a redundance přirozených jazyků vyplývají z toho, že pravděpodobnostní omezení v jazyce jsou vysokého řádu, působí ve velmi dlouhých řadách písmen. To znamená, že hodnoty mezní (nejnižší) entropie H_∞ a redundance R mohou být přímo vypočítány jen za předpokladu, že známe frekvence písmenových kombinací k-té třídy, přičemž k se podle předběžných odhadů udává v rozmezí 30—35 písmen.[3] Uvážíme-li, že počet možných kombinací 30. třídy z abecedy o 40 písmenech je udán číslem 40³⁰, pochopíme, že přímý numerický výpočet entropie je nejen nad síly lidské, ale i nad možnosti současné výpočtové techniky. Pokud je mi známo, byla [166]zatím přímo vypočítána nanejvýš hodnota H₃, vycházející z četností písmenových kombinací 3. třídy (pro angličtinu a pro ruštinu).

Proto se hledají nepřímé metody odhadu mezní entropie a redundance. Dva druhy těchto metod navrhl již Shannon (o. c.) a udal tím směr celému dalšímu výzkumu. První druh nepřímých metod je možno nazvat nepřímé metody numerické. Přiblížení k hodnotám entropie vyšších řádů se hledá na základě výpočtu entropie rozložení četností slabik, slov apod. Na češtinu byl z těchto metod zatím aplikován odhad entropie pomocí tzv. „vnitřní informace“.[4] Fr. Kroutl odhadl touto cestou mezní entropii psané češtiny na 2,2 bitu, redundanci na 41 %.[5]

Podstatu metod druhé skupiny tvoří experiment, pokus o uhodnutí písmene, je-li známo N předcházejících písmen textu. Proto se tyto metody nazývají experimentální.[6] Dvě varianty pokusu navrhl již Shannon, později byla metodika pokusu v některých pracích modifikována, buď zjednodušována, nebo specifikována.[7] Přitom však v základu všech experimentálních metod zůstává Shannonova „hra na hádání“.

2. Metodika výběru materiálu a abeceda. Na rozdíl od práce Shannonovy i některých jiných prací jsme byli při odhadu entropie a redundance psané češtiny v situaci, která je v určitém ohledu nevýhodná, v jiném však výhodná. Neměli jsme totiž k dispozici spolehlivé statistiky výskytu grafémů a jejich kombinací, takže jsme si tyto výchozí údaje museli opatřit sami. To znamenalo sice podstatné zdržení výpočtu, ale na druhé straně nám to umožnilo provést lingvisticky zdůvodněný výběr výchozích textů, který směřuje k řešení základních otázek lingvistické interpretace entropie a redundance. Výběr textů se řídil dvěma zásadami: 1. Texty mají představovat různé vyhraněné stylové oblasti současné psané češtiny. 2. Texty mají být dostatečně dlouhé, aby mohly být i z hlediska statistického považovány do jisté míry za reprezentativní.

Stanovili jsme proto jako pokusný materiál našeho odhadu sedm souvislých textů, každý o rozsahu 20 000 grafémů. (V terminologii matematické statistiky bychom řekli, že jsme provedli oblastní mechanický výběr.) Vcelku jsme tedy měli k dispozici materiál o rozsahu 140 000 grafémů.

Pozn. Seznam textů, z nichž byly vzaty výběry:
J. Wolf, Učebnice histologie, 1956	(výběr A)
O. Weinberger, Logika, 1959	(výběr B)
Z. Servít, Cesta k záhadám lidského mozku, 1961³	(výběr C)
M. Úlehlová-Tilschová, Vaříme účelně pro zdravé i nemocné, 1953	(výběr D)
Večerní Praha ze 14. února 1962	(výběr E)
Fr. Hrubín, U stolu, 1958	(výběr F)
M. Kundera, Monology, 1957	(výběr G)

[167]O stanovení abecedy pro náš odhad stačí zmínit se stručně; z hlediska daného úkolu má totiž tato otázka druhořadý význam. Pro tento první odhad jsme si stanovili abecedu co nejširšího rozsahu, aby představovala všechna písmena vyskytující se ve vybraných textech. Tato abeceda má 42 grafémů, včetně mezery a řídce se vyskytujících „cizích“ grafémů q, w, x. Písmena ú a ů se ztotožňují v jeden grafém „dlouhé u“, spřežka ch se přirozeně považuje za jeden grafém. Při stanovení digramových kombinací jsme zavedli pravidlo, podle něhož se skupiny písmen dě, tě, ně; di, ti, ni; dí, tí, ní přepisují jako ď, ť, ň + e, i, í, samozřejmě s výjimkou těch případů, kdy písmena d, t, n ve skupinách di, ti, ni reprezentují grafémy d, t, n (tj. vyslovují se dy, ty, ny).

3. Výchozí statistické údaje. Z uvedeného materiálu na základě popsané abecedy byly získány jako výchozí statistické údaje četnosti jednotlivých grafémů a četnosti digramových kombinací grafémů. Hodnoty byly tabelovány jak pro jednotlivé výběry, tak (jako průměrné hodnoty) pro celý soubor 140 000 grafémů. Protože tyto statistické údaje dosud nejsou pro psanou češtinu k dispozici, uveřejňujeme zde jednak tabulku absolutních i relativních četností jednotlivých grafémů (tabulka I),[8] jednak tabulku relativních četností digramových kombinací (tabulka II).

V tabulce III jsou uvedeny další nutné výchozí údaje získané z pokusu s predikcí grafémů. Při pokusu bylo použito nezměněné metodiky Shannonovy.[9] Jak je vidět z tabulky, byly pokusným osobám předkládány k hádání různé texty, přičemž počet předem známých (tj. uhádnutých nebo sdělených) písmen N = 1, 2, 3, … 15, 30. Bylo uskutečněno 100 pokusů s 20 pokusnými osobami. Při pokusu se pamatovalo na to, aby byly získány nejen údaje pro celý soubor textů použitých při predikci, ale také pro jednotlivé texty reprezentující hlavní funkční styly psané češtiny. Vzhledem k pracnosti pokusu omezili jsme se pouze na pět textů: výběr A (Wolf), výběr C (Servít), výběr E (Večerní Praha), výběr F (Hrubín), výběr G (Kundera).

4. Výsledky výpočtů. Výchozí hodnotou pro stanovení entropie a redundance psaného jazyka je entropie nultého řádu H₀, tj. maximální entropie souboru grafémů, který by nebyl podroben žádným pravděpodobnostním omezením. Je to tedy míra neuspořádanosti takové grafematické soustavy, v níž by se jednotlivé grafémy vyskytovaly se stejnou pravděpodobností a bez jakékoli pravděpodobnostní podmíněnosti. Podle Shannonem vyvozeného vzorce H₀ = log₂ n, přičemž n je počet grafémů stanovené abecedy. Pro psanou češtinu při abecedě o 42 grafémech H₀ = log₂ 42 = 5,3923 bitu.

Hodnota entropie prvního řádu H₁ se, jak známo, vypočítá na základě vzorce: H₁ = — Σ p_i log₂ p_i, kde p_i jsou pravděpodobnosti výskytu jednotlivých grafémů v daném jazyce. Ztotožníme-li tyto pravděpodobnosti s relativními četnostmi grafémů uvedenými v tabulce I, dostáváme pro psanou češtinu H₁ = 4,6665 bitu. Tato hodnota udává míru neuspořádanosti grafematické soustavy, v níž by se jednotlivé grafémy vyskytovaly ve shodě se svými pravděpodobnostmi, ale neexistovaly by pravděpodobnostní vztahy mezi nimi.

Výpočtový vzorec pro stanovení entropie druhého řádu je dán výrazem: H₂ = — Σ p_ij log₂ p_ij + Σ p_i log₂ p_i, kde p_ij jsou pravděpodobnosti výskytu di-

[168]Tabulka I

	x_i	p_i		x_i	p_i
a	7603	0,05431	o	9473	0,06766
á	3014	0,02153	ó	59	0,00042
b	1909	0,01363	p	3909	0,02792
c	1463	0,01045	r	4105	0,02932
č	1097	0,00784	ř	1359	0,00971
d	3700	0,02643	s	5240	0,03743
ď	579	0,00414	š	1045	0,00746
e	10165	0,07261	t	5418	0,03870
é	1464	0,01046	ť	913	0,00652
ě	866	0,00619	u	4198	0,02999
f	272	0,00194	ú	764	0,00546
g	235	0,00168	v	5535	0,03953
h	1533	0,01095	y	2272	0,01623
ch	1363	0,00974	ý	1193	0,00852
i	4625	0,03303	z	2663	0,01902
í	3486	0,02490	ž	1338	0,00956
j	2923	0,02088	mezera	23221	0,16586
k	4715	0,03368	q	4	0,00003
l	4611	0,03293	w	16	0,00011
m	3903	0,02788	x	87	0,00062
n	5650	0,04036	Σ	140 000	1,00000
ň	2012	0,01437	Σ	140 000	1,00000

gramových kombinací v daném jazyce. Ztotožníme-li tyto pravděpodobnosti s relativními četnostmi digramových kombinací z tabulky II, dostáváme — Σ p_ij = 8,5375 a H₂ = 8,5375 — 4,6665 = 3,8710 bitu. Tato hodnota udává míru neuspořádanosti grafematické soustavy, v níž jsou respektovány jak pravděpodobnosti výskytu jednotlivých grafémů, tak podmíněné pravděpodobnosti v digramových kombinacích.

Na základě tabulky III byly pak vypočítány dolní a horní hranice předpokládané mezní entropie H₃₀. Podle tohoto odhadu spadá entropie H₃₀ psané češtiny do intervalu <1,0397 — 1,9444> bitu. Tato hodnota udává odhad míry neuspořádanosti grafematické soustavy, při níž se respektují podmíněná pravděpodobnostní omezení působící do rozmezí 30 písmen.[10]

Tabulka II

2. grafém 1. grafém	a	á	b	c	č	d
a	0,00001	—	0,00077	0,00099	0,00042	0,00233
á	—	—	0,00024	0,00041	0,00020	0,00104
b	0,00074	0,00034	—	—	0,00002	0,00001
c	0,00013	0,00001	—	0,00001	—	—
č	0,00062	0,00017	—	0,00005	—	—
d	0,00133	0,00173	0,00017	0,00019	0,00001	0,00001
ď	0,00001	—	—	—	0,00001	—
e	0,00011	—	0,00182	0,00081	0,00114	0,00365
é	—	—	0,00004	0,00001	0,00011	0,00001
ě	—	—	—	0,00009	0,00004	0,00028
f	0,00019	0,00001—	—	—	—	—
g	0,00027	0,00006	0,00001	—	—	—
h	0,00072	0,00018	—	0,00007	0,00001	0,00008
ch	0,00053	0,00043	—	0,00023	—	—
i	0,00024	0,00016	0,00023	0,00203	0,00046	0,00067
í	—	—	0,00009	0,00112	0,00030	0,00045
j	0,00240	0,00040	0,00001	0,00002	0,00008	0,00040
k	0,00345	0,00129	—	0,00016	0,00009	0,00134
l	0,00472	0,00204	0,00001	0,00008	0,00011	0,00003
m	0,00208	0,00121	0,00006	0,00005	0,00001	—
n	0,00788	0,00295	0,00004	0,00066	0,00016	0,00026
ň	—	0,00004	—	—	—	—
o	0,00002	0,00001	0,00342	0,00071	0,00073	0,00599
ó	—	—	—	—	—	—
p	0,00196	0,00029	—	0,00003	—	0,00005
r	0,00578	0,00231	0,00014	0,00002	0,00056	0,00019
ř	0,00029	0,00028	0,00003	—	0,00003	—
s	0,00129	0,00027	0,00006	0,00006	0,00002	0,00004
š	0,00062	0,00001	—	—	0,00004	—
t	0,00453	0,00295	—	0,00004	0,00002	0,00003
ť	0,00001	0,00010	—	0,00001	—	—
u	0,00006	0,00004	0,00101	0,00021	0,00054	0,00116
ú	—	—	0,00018	0,00001	0,00012	0,00010
v	0,00364	0,00285	0,00005	0,00014	0,00014	0,00004
y	—	—	0,00045	0,00004	0,00021	0,00009
ý	—	—	0,00038	0,00001	0,00005	0,00006
z	0,00265	0,00116	0,00028	0,00021	0,00003	0,00080
ž	0,00016	0,00021	0,00004	0,00004	—	0,00046
mez.	0,00779	—	0,00410	0,00195	0,00208	0,00686
q	0,00001	—	—	—	—	—
w	0,00001	—	—	—	—	—
x	—	—	—	—	—	—
Σ

2. grafém 1. grafém	ď	e	é	ě	f	g
a	0,00044	0,00002	—	—	0,00010	0,00019
á	0,00012	—	—	—	—	—
b	0,00001	0,00101	0,00004	0,00076	—	—
c	—	0,00338	0,00003	—	—	—
č	—	0,00183	—	—	—	—
d	0,00003	0,00348	0,00024	—	—	—
ď	—	0,00131	—	—	—	—
e	0,00055	0,00001	—	—	0,00036	0,00009
é	—	—	—	—	0,00006	—
ě	0,00065	—	—	—	—	—
f	—	0,00019	0,00003	—	—	0,00001
g	—	0,00032	—	—	—	—
h	—	0,00026	0,00013	—	—	—
ch	—	0,00013	0,00005	—	—	—
i	0,00038	0,00027	0,00004	—	0,00011	0,00011
í	0,00002	—	—	—	0,00004	0,00001
j	0,00001	0,00803	—	—	0,00001	—
k	0,00001	0,00074	0,00161	—	—	0,00003
l	—	0,00509	0,00143	—	0,00001	0,00001
m	—	0,00363	0,00044	0,00160	0,00002	—
n	0,00002	0,00737	0,00296	—	0,00004	0,00008
ň	—	0,00446	—	—	—	—
o	0,00049	0,00002	—	—	0,00009	0,00052
ó	—	—	—	—	—	—
p	—	0,00126	0,00001	0,00047	—	—
r	0,00004	0,00167	0,00055	—	—	0,00031
ř	—	0,00414	—	—	—	—
s	—	0,00629	—	—	0,00004	—
š	—	0,00179	0,00001	—	—	—
t	—	0,00522	0,00105	—	—	—
ť	—	0,00228	—	—	—	—
u	0,00011	0,00001	—	—	0,00006	0,00010
ú	0,00001	—	—	—	—	—
v	0,00010	0,00289	0,00181	0,00330	—	—
y	0,00001	0,00001	—	—	0,00001	0,00001
ý	—	—	—	—	—	—
z	0,00017	0,00249	—	—	—	—
ž	0,00014	0,00251	—	—	—	—
mez.	0,00083	0,00049	—	—	0,00107	0,00022
q	—	—	—	—	—	—
w	—	0,00001	—	—	—	—
x	—	0,00004	—	—	—	—
Σ

2. grafém 1. grafém	h	ch	i	í	j	k
a	0,00121	0,00034	0,00016	—	0,00169	0,00483
á	0,00025	0,00047	—	—	0,00012	0,00074
b	—	—	0,00039	0,00070	0,00016	0,00011
c	—	—	0,00146	0,00166	—	0,00121
č	—	—	0,00140	0,00068	—	0,00072
d	0,00006	0,00011	0,00026	—	0,00006	0,00036
ď	—	—	0,00110	0,00123	—	0,00001
e	0,00076	0,00141	0,00003	—	0,00269	0,00273
é	0,00140	0,00001	—	—	—	0,00021
ě	0,00012	0,00006	—	—	0,00011	0,00037
f	—	—	0,00042	0,00004	—	0,00004
g	—	—	0,00039	—	0,00001	—
h	—	—	0,00003	0,00001	—	0,00005
ch	—	—	0,00004	—	—	—
i	0,00020	0,00085	0,00011	0,00009	0,00018	0,00123
í	0,00062	0,00135	—	—	0,00011	0,00081
j	—	0,00002	0,00183	0,00316	0,00001	0,00007
k	—	—	0,00004	—	—	0,00009
l	0,00010	0,00001	0,00432	0,00071	0,00010	0,00084
m	—	—	0,00286	0,00115	—	0,00015
n	—	0,00001	0,00048	0,00002	0,00001	0,00111
ň	—	—	0,00243	0,00672	—	0,00009
o	0,00135	0,00046	0,00003	—	0,00114	0,00178
ó	—	—	—	—	0,00001	—
p	—	—	0,00068	0,00044	0,00002	0,00011
r	0,00019	0,00036	0,00073	—	0,00001	0,00030
ř	—	—	0,00187	0,00209	—	0,00005
s	0,00008	0,00014	0,00013	0,00069	0,00009	0,00271
š	—	—	0,00064	0,00135	—	0,00039
t	0,00006	—	0,00136	—	0,00007	0,00079
ť	—	—	0,00227	0,00133	—	0,00002
u	0,00080	0,00044	0,00001	—	0,00215	0,00099
ú	0,00003	—	—	—	0,00033	0,00005
v	0,00006	0,00001	0,00263	0,00157	—	0,00029
y	0,00009	0,00036	—	—	0,00011	0,00037
ý	0,00004	0,00194	—	—	0,00005	0,00019
z	0,00032	—	0,00064	0,00048	0,00006	0,00172
ž	—	—	0,00122	0,00076	0,00001	0,00028
mez.	0,00319	0,00141	0,00141	—	0,01157	0,00790
q	—	—	—	—	—	—
w	0,00002	—	0,00004	—	—	—
x	—	—	0,00013	—	—	—
Σ

2. grafém 1. grafém	l	m	n	ň	o	ó
a	0,00374	0,00207	0,00304	0,00056	0,00006	—
á	0,00155	0,00142	0,00075	0,00116	0,00001	—
b	0,00081	0,00007	0,00031	0,00021	0,00227	—
c	0,00002	0,00004	0,00014	0,00004	0,00101	—
č	0,00038	0,00001	0,00053	0,00035	0,00015	—
d	0,00105	0,00034	0,00175	0,00107	0,00447	—
ď	—	0,00005	—	—	—	—
e	0,00416	0,00514	0,00636	0,00206	0,00025	0,00001
é	0,00004	0,00079	0,00022	0,00006	—	—
ě	0,00031	0,00001	0,00023	0,00013	—	—
f	0,00028	—	—	0,00001	0,00025	0,00001
g	0,00009	—	0,00009	—	0,00009	0,00001
h	0,00144	0,00012	0,00027	0,00009	0,00453	—
ch	0,00038	0,00001	0,00036	0,00017	0,00076	—
i	0,00250	0,00067	0,00383	0,00017	0,00010	0,00004
í	0,00068	0,00252	0,00054	0,00021	—	—
j	0,00006	0,00041	0,00019	0,00024	0,00017	—
k	0,00198	0,00009	0,00031	0,00019	0,00582	0,00007
l	0,00006	0,00036	0,00079	0,00086	0,00402	0,00001
m	0,00074	0,00001	0,00089	0,00024	0,00148	—
n	0,00006	—	0,00073	0,00021	0,00531	0,00001
ň	—	0,00003	0,00001	—	0,00010	—
o	0,00247	0,00205	0,00131	0,00036	0,00001	—
ó	0,00001	—	0,00024	0,00002	—	—
p	0,00126	0,00001	0,00006	0,00016	0,00892	0,00003
r	0,00008	0,00037	0,00071	0,00044	0,00659	0,00008
ř	—	0,00006	0,00004	0,00010	0,00007	—
s	0,00204	0,00126	0,00056	0,00048	0,00267	—
š	0,00027	0,00001	0,00009	0,00006	0,00009	—
t	0,00055	0,00024	0,00066	0,00091	0,00538	0,00005
ť	—	0,00001	—	—	0,00004	—
u	0,00061	0,00058	0,00060	0,00015	—	—
ú	0,00018	0,00034	0,00003	0,00003	—	—
v	0,00088	—	0,00049	0,00136	0,00328	—
y	0,00083	0,00014	0,00020	0,00017	0,00004	—
ý	0,00007	0,00139	0,00010	0,00001	—	—
z	0,00034	0,00028	0,00111	0,00041	0,00049	0,00009
ž	0,00013	—	0,00032	0,00011	0,00020	—
mez.	0,00290	0,00699	0,01251	0,00156	0,00903	—
q	—	—	—	—	—	—
w	—	—	—	—	0,00001	—
x	—	—	—	0,00003	—	—
Σ

2. grafém 1. grafém	p	r	ř	s	š	t
a	0,00081	0,00130	0,00032	0,00190	0,00041	0,00321
á	0,00068	0,00046	0,00036	0,00086	0,00055	0,00089
b	—	0,00110	0,00021	0,00060	0,00004	—
c	0,00001	0,00001	—	0,00001	—	0,00004
č	—	—	—	0,00006	—	0,00019
d	0,00095	0,00111	0,00023	0,00040	0,00005	0,00007
ď	0,00001	—	—	—	—	0,00003
e	0,00093	0,00324	0,00055	0,00233	0,00074	0,00190
é	0,00005	0,00006	—	0,00007	0,00001	0,00022
ě	—	0,00035	0,00025	0,00028	0,00011	0,00017
f	—	0,00019	0,00001	—	—	—
g	—	0,00016	—	—	—	0,00001
h	—	0,00075	0,00014	—	—	—
ch	—	0,00017	0,00004	0,00002	—	0,00022
i	0,00050	0,00017	0,00003	0,00136	0,00054	0,00274
í	0,00017	0,00044	0,00024	0,00066	0,00029	0,00049
j	0,00006	0,00001	0,00001	0,00188	0,00036	0,00001
k	0,00001	0,00176	0,00021	0,00001	—	0,00174
l	0,00009	0,00001	—	0,00020	0,00014	0,00013
m	0,00016	0,00019	0,00006	0,00003	—	0,00009
n	—	0,00001	—	0,00044	0,00004	0,00116
ň	—	—	—	—	—	0,00001
o	0,00109	0,00231	0,00079	0,00392	0,00020	0,00404
ó	—	0,00003	—	—	—	—
p	0,00001	0,00601	0,00384	0,00050	0,00006	0,00014
r	0,00006	—	—	0,00061	0,00009	0,00017
ř	—	—	—	0,00012	0,00004	0,00001
s	0,00133	0,00017	—	0,00002	—	0,00831
š	0,00008	0,00003	—	0,00001	0,00010	0,00082
t	—	0,00273	0,00106	0,00019	0,00016	0,00001
ť	—	0,00001	—	—	—	—
u	0,00079	0,00087	0,00006	0,00147	0,00073	0,00122
ú	0,00010	0,00015	0,00004	0,00064	0,00001	0,00013
v	0,00008	0,00116	0,00012	0,00030	0,00136	0,00007
y	0,00051	0,00024	0,00006	0,00094	0,00034	0,00076
ý	0,00001	0,00028	0,00002	0,00011	0,00009	0,00022
z	0,00051	0,00026	0,00016	0,00014	0,00001	0,00028
ž	—	—	—	0,00010	0,00006	0,00005
mez.	0,01890	0,00361	0,00091	0,01725	0,00090	0,00881
q	—	—	—	—	—	—
w	—	—	—	0,00001	—	—
x	0,00002	—	—	—	—	0,00012
Σ

2. grafém 1. grafém	ť	u	ú	v	y	ý
a	0,00069	0,00016	—	0,00323	—	—
á	0,00009	—	—	0,00175	—	—
b	0,00003	0,00117	0,00006	0,00012	0,00184	0,00024
c	0,00003	0,00031	0,00011	0,00002	0,00002	—
č	0,00003	0,00018	—	—	—	—
d	0,00001	0,00113	0,00024	0,00053	0,00188	0,00021
ď	—	0,00001	—	—	—	—
e	0,00023	0,00034	0,00006	0,00146	—	—
é	0,00001	—	—	0,00019	—	—
ě	0,00007	—	—	0,00004	—	—
f	—	0,00016	0,00001	—	0,00004	—
g	—	0,00006	0,00001	—	0,00001	—
h	—	0,00092	0,00009	0,00006	0,00049	0,00010
ch	0,00011	0,00042	0,00008	0,00027	0,00018	0,00009
i	0,00026	0,00006	—	0,00173	—	—
í	0,00026	—	—	0,00041	—	—
j	0,00001	0,00013	0,00006	0,00006	—	—
k	—	0,00274	0,00051	0,00020	0,00275	0,00112
l	0,00001	0,00136	0,00027	0,00004	0,00074	0,00056
m	—	0,00141	0,00039	0,00001	0,00064	0,00008
n	0,00005	0,00147	0,00023	0,00004	0,00161	0,00240
ň	—	0,00014	0,00004	0,00001	—	—
o	0,00051	0,00711	0,00001	0,00844	—	—
ó	—	—	—	—	—	—
p	—	0,00046	0,00044	—	0,00014	0,00005
r	0,00006	0,00200	0,00082	0,00097	0,00086	0,00055
ř	0,00001	0,00007	0,00001	0,00001	—	—
s	0,00136	0,00106	0,00009	0,00139	0,00048	0,00007
š	0,00082	0,00015	—	0,00001	—	—
t	—	0,00199	0,00047	0,00141	0,00155	0,00061
ť	—	0,00002	—	—	—	—
u	0,00042	—	—	0,00052	—	—
ú	0,00003	—	—	0,00028	—	—
v	0,00001	0,00078	0,00039	—	0,00270	0,00235
y	0,00018	0,00004	—	0,00013	—	—
ý	0,00001	—	—	0,00025	—	—
z	0,00001	0,00074	0,00014	0,00097	0,00015	0,00007
ž	—	0,00009	—	0,00001	—	—
mez.	0,00121	0,00311	0,00090	0,01497	0,00002	—
q	—	—	—	—	—	—
w	—	—	—	—	—	—
x	—	0,00001	0,00002	—	0,00010	—
Σ

2. grafém 1. grafém	z	ž	mez.	q
a	0,00111	0,00105	0,01719	—
á	0,00227	0,00034	0,00480	—
b	0,00002	0,00001	0,00023	—
c	—	—	0,00075	—
č	—	—	0,00049	—
d	0,00005	0,00006	0,00249	—
ď	—	—	0,00037	—
e	0,00143	0,00086	0,02386	—
é	0,00004	0,00021	0,00664	—
ě	0,00009	0,00023	0,00120	—
f	—	—	0,00005	—
g	—	—	0,00009	—
h	—	0,00001	0,00040	—
ch	—	0,00009	0,00496	—
i	0,00064	0,00041	0,00991	—
í	0,00019	0,00028	0,01260	—
j	—	0,00002	0,00075	—
k	0,00002	0,00004	0,00526	—
l	0,00035	0,00006	0,00326	—
m	0,00001	0,00017	0,00802	—
n	0,00008	0,00014	0,00232	—
ň	—	—	0,00029	—
o	0,00167	0,00096	0,01362	—
ó	0,00011	—	—	—
p	—	—	0,00051	—
r	0,00014	0,00031	0,00124	—
ř	—	—	0,00039	—
s	—	—	0,00273	—
š	—	—	0,00076	—
t	0,00009	—	0,00452	—
ť	—	—	0,00042	—
u	0,00041	0,00085	0,01302	—
ú	0,00025	0,00037	0,00205	—
v	0,00078	0,00024	0,00366	—
y	0,00006	0,00038	0,00945	—
ý	0,00019	0,00020	0,00285	—
z	0,00001	—	0,00184	—
ž	—	—	0,00266	—
mez.	0,00899	0,00229	—	0,00003
q	—	—	0,00002	—
w	—	—	0,00001	—
x	—	—	0,00015	—
Σ

2. grafém 1. grafém	w	x	Σ
a	0,00001	0,00004	0,05431
á	—	—	0,02153
b	—	—	0,01363
c	—	—	0,01045
č	—	—	0,00784
d	—	—	0,02643
ď	—	—	0,00414
e	0,00001	0,00053	0,07261
é	—	—	0,01046
ě	—	—	0,00619
f	—	—	0,00194
g	—	—	0,00168
h	—	—	0,01095
ch	—	—	0,00974
i	—	0,00001	0,03303
í	—	—	0,02490
j	—	—	0,02088
k	—	—	0,03368
l	—	—	0,03293
m	—	—	0,02788
n	—	—	0,04036
ň	—	—	0,01437
o	0,00001	0,00002	0,06766
ó	—	—	0,00042
p	—	—	0,02792
r	—	0,00001	0,02932
ř	—	—	0,00971
s	—	—	0,03743
š	—	—	0,00746
t	—	—	0,03870
ť	—	—	0,00652
u	—	—	0,02999
ú	—	—	0,00546
v	—	—	0,03953
y	—	—	0,01623
ý	—	—	0,00852
z	—	—	0,01902
ž	—	—	0,00956
mez.	0,00009	0,00001	0,16586
q	—	—	0,00003
w	—	—	0,00011
x	—	—	0,00062
Σ			1,00000

[169]Tabulka III

	počet známých grafémů
p o č e t „ h á d á n í “		1	2	3	4	5	6	7	8
	1	12	18	25	35	53	49	43	50
	2	4	23	17	15	13	9	12	7
	3	10	7	11	11	6	4	6	7
	4	5	9	2	3	5	7	5	7
	5	6	3	2	4	2	3	3	5
	6	3	5	4	4	3	1	6	1
	7	1	4	3	5	4	3	2	1
	8	3	2	6	1	1	2	1	4
	9	3	5	5	1	—	—	1	1
	10	7	—	4	2	1	—	1	2
	11	5	4	2	—	—	1	2	1
	12	4	—	1	1	2	3	—	2
	13	1	2	2	1	1	3	2	1
	14	1	—	2	2	—	1	4	1
	15	1	1	2	—	2	1	3	1
	16	6	—	2	1	1	1	—	2
	17	2	2	—	2	—	—	3	—
	18	4	2	—	1	1	—	—	—
	19	3	2	—	—	—	—	1	1
	20	2	—	1	—	1	1	—	—
	21	2	2	—	1	1	5	1	1
	22	—	1	2	—	—	2	1	—
	23	—	—	—	1	—	1	—	1
	24	3	—	2	—	—	—	—	1
	25	2	—	1	—	—	—	—	2
	26	2	2	1	—	1	2	1	—
	27	1	—	1	2	—	—	1	—
	28	2	—	—	2	1	—	—	1
	29	1	1	—	1	1	—	1	—
	30	3	2	—	1	—	—	—	—
	31	—	—	—	1	—	—	—	—
	32	—	1	1	—	—	—	—	—
	33	1	—	—	2	—	—	—	—
	34	—	—	—	—	—	—	—	—
	35	—	1	—	—	—	—	—	—
	36	—	—	1	—	—	—	—	—
	37	—	1	—	—	—	1	—	—
	38	—	—	—	—	—	—	—	—
	39	—	—	—	—	—	—	—	—
	40	—	—	—	—	—	—	—	—
	41	—	—	—	—	—	—	—	—
	42	—	—	—	—	—	—	—	—
		100	100	100	100	100	100	100	100

	počet známých grafémů
p o č e t „ h á d á n í “		9	10	11	12	13	14	15	30
	1	50	48	48	55	49	52	47	65
	2	12	11	13	9	16	13	18	10
	3	4	5	4	4	7	13	5	9
	4	5	5	6	6	6	1	3	2
	5	5	2	2	2	2	2	2	4
	6	4	3	1	2	2	5	2	—
	7	1	4	3	3	—	1	1	1
	8	4	3	2	4	1	1	2	2
	9	—	—	1	1	1	—	3	—
	10	2	2	2	2	1	—	—	—
	11	2	—	3	2	1	1	4	1
	12	2	3	2	1	—	2	1	3
	13	1	3	1	1	2	1	1	1
	14	1	3	3	1	1	2	—	1
	15	1	1	—	—	—	2	2	—
	16	—	—	1	—	1	—	—	—
	17	1	—	—	1	1	—	—	—
	18	—	1	—	2	1	1	2	—
	19	—	—	1	—	—	—	1	—
	20	1	—	1	—	2	—	—	1
	21	—	—	1	—	—	—	1	—
	22	2	—	—	—	—	—	1	—
	23	—	—	1	—	—	—	2	—
	24	—	1	—	—	—	—	—	—
	25	2	2	1	1	2	1	—	—
	26	—	1	—	1	1	1	—	—
	27	—	—	1	1	1	—	1	—
	28	—	—	—	—	2	—	—	—
	29	—	1	1	—	—	1	—	—
	30	—	—	1	—	—	—	—	—
	31	—	1	—	—	—	—	—	—
	32	—	—	—	—	—	—	—	—
	33	—	—	—	1	—	—	—	—
	34	—	—	—	—	—	—	—	—
	35	—	—	—	—	—	—	—	—
	36	—	—	—	—	—	—	1	—
	37	—	—	—	—	—	—	—	—
	38	—	—	—	—	—	—	—	—
	39	—	—	—	—	—	—	—	—
	40	—	—	—	—	—	—	—	—
	41	—	—	—	—	—	—	—	—
	42	—	—	—	—	—	—	—	—
		100	100	100	100	100	100	100	100

[170]Ztotožníme-li hodnotu H₃₀ s mezní entropií psané češtiny (H_∞), pak můžeme odhadnout redundanci psané češtiny. Podle Shannonova vzorce:

(pro dolní hranici entropie) a

(pro horní hranici entropie).

Můžeme tedy uzavřít, že odhad redundance psané češtiny spadá do intervalu (přibližně) <64 % — 81 %>.

Vedle výpočtu entropie a redundance ze souboru 140 000 grafémů jsme provedli analogické výpočty pro pět dílčích výběrů o rozsahu 20 000 grafémů. Tyto výpočty mají být východiskem pro první předběžné porovnání entropie a redundance různých stylů psané češtiny a mají přispět k řešení základních otázek lingvistické interpretace těchto pojmů, jak jsme si je v naší stati vytyčili. Výsledky těchto výpočtů jsou shrnuty v tabulce IV.

Tabulka IV

	H₁	H₂	H₃₀	Střed	R
výběr A	4,7044	3,9113	1,5425—1,8827	1,7126	65,08—71,03
výběr C	4,6025	3,6371	1,0619—1,5570	1,3094	71,13—80,31
výběr E	4,6985	3,6527	0,9696—1,2919	1,1307	76,04—82,19
výběr F	4,5919	3,6825	0,5581—0,8488	0,7034	84,26—89,65
výběr G	4,5722	3,5924	1,5999—2,2232	1,9115	58,77—70,33

Abychom zjistili, jak jsou si výběry z hlediska entropie blízké (nebo vzdálené), vypočítali jsme pro jednotlivé sloupce tabulky čís. IV směrodatnou odchylku (u sloupce H₃₀ jsme vycházeli ze středů intervalů). Hodnoty směrodatné odchylky činí: σ_H1 = 0,15, σ_H2 = 0,33, σ_H30 = 0,96.

5. Zhodnocení výsledků a závěry. Jak jsem se již zmínil, neexistuje dosud jednoznačná a všeobecně přijímaná lingvistická interpretace pojmů entropie a redundance jazyka ani stejné hodnocení konkrétních údajů získaných pro různé jazyky. Je to způsobeno především tím, že nejsou zatím k dispozici spolehlivé metody pro exaktnější stanovení hodnot entropie vyšších řádů. [171]Musíme se spokojit se značně nespolehlivými odhady, které jsou ovšem velmi labilním východiskem pro srovnávání (ať již různých stylů jednoho jazyka, nebo různých jazyků navzájem). Také naše výsledky jsou nedostatečné k tomu, aby daly jednoznačnou odpověď na zkoumané otázky, zdá se však, že ukazují cestu k potvrzení, resp. zamítnutí určitých hypotéz.

Hlavní teoretické otázky, na něž je třeba hledat odpověď, zní:

1. Je entropie a redundance charakteristikou určitého jazyka jako celku, anebo charakterizuje jednotlivé jazykové styly (ev. texty)?

2. Je-li entropie a redundance charakteristikou jazyka jako celku, jsou její hodnoty rozdílné pro jednotlivé konkrétní jazyky, anebo vykazují jazyky z tohoto hlediska podstatné shody?

Tyto otázky mají také svou stránku matematickou. Již C. Cherry zdůraznil,[11] že pojmy teorie informace je možno aplikovat jen na takové zdroje informací, které jsou statisticky stacionární. Podle Cherryho však mluvené i psané jazyky neustále mění svou statistickou (mikro)strukturu. Naproti tomu G. Herdan[12] považuje příslušné statistické charakteristiky jazyka za stálé, jsou-li splněny určité podmínky.[13] Z hlediska naší dvojité otázky je si tedy možno jazyk představit buď jako jediný, statisticky stacionární zdroj, anebo jako celou sérii zdrojů, které pouze ve vlastní generující činnosti jsou statisticky stacionární.

Zmíněným dvěma stanoviskům, formulovaným v termínech teorie pravděpodobnosti, odpovídají dvě protichůdná stanoviska formulovaná v termínech lingvistických. I. Fónagy[14] považuje hodnoty redundance (zjištěné experimentálně) za výraznou charakteristiku jednotlivých jazykových stylů. Naproti tomu rumunští badatelé, kteří stanovili numericky hodnotu H₁ pro různé styly rumunštiny, dospívají k závěru, že tato hodnota vykazuje jen nevýznamné kolísání a mluví o „hluboké jednotnosti rumunštiny přes všechnu stylovou různost“.[15] Sovětští autoři zaujímají kompromisní stanovisko: odhadují predikcí redundanci různých stylů ruštiny, avšak zároveň používají průměrné hodnoty jako charakteristiky psané ruštiny vcelku.[16] Přitom však, pokud se týká hierarchie stylů z hlediska redundance, dospěl Fónagy k podstatně odlišným výsledkům než sovětští autoři. Podle Fónagye má nejvyšší redundanci styl hovorový, nižší redundanci styl novinářský a nejnižší redundanci styl básnický. Naproti tomu pro ruštinu byly získány tyto údaje: odborný (delovoj) styl: 83,4 — 88,1 %, beletristický styl: 76,3 — 82,6 %, hovorový styl: 72,0 — 79,6 %. Zejména relativně nízká redundance hovorového stylu ruštiny je velmi překvapující.

Jak jsem již řekl, stanovili jsme hodnoty entropie a redundance pro pět dílčích výběrů (textů různých stylů) právě za tím účelem, abychom přispěli k vyřešení [172]tohoto zásadního rozporu. Tabulka IV ukazuje, že hodnoty entropie H₃₀ a redundance R pro jednotlivé výběry vykazují dost značné kolísání. Přitom se potvrzuje spíše pozorování Fónagyovo, že totiž redundance je mírou standardizace, resp. aktualizace stylu (naše hierarchie: styl novinářský, populárně vědecký, vědecký, básnický).[17]

Přes tyto náznaky nelze tvrdit, že naše výsledky jednoznačně potvrzují hypotézu o entropii a redundanci jako charakteristikách stylistických. Konečnou odpověď zde může dát pouze analýza rozptylu hodnot entropie různých řádů pro různé výběry (styly). Pokud je mi známo, nebylo zatím tohoto postupu v literatuře využito. Bohužel i v této stati se musíme spokojit jen s návrhem na využití této metody. Užitečná aplikace by totiž vyžadovala splnění dvou předpokladů: 1. mít k dispozici numerický výpočet entropie různých řádů, aby bylo možné sledovat průběh (tendenci) rozptylu; 2. tyto hodnoty získat na základě dostatečně reprezentativních výběrů, aby hodnoty rozptylu nebyly podstatně ovlivněny výběrovou chybou.

Protože tyto předpoklady nejsou v našich výpočtech splněny, musíme se spokojit jen s vyslovením určitého stanoviska: Uvedené hodnoty směrodatné odchylky (viz s. 170) naznačují, že je značný rozdíl mezi rozptylem hodnot H₁ a H₂ (získaných numericky) na straně jedné, a rozptylem hodnot H₃₀ (získaných predikcí) na straně druhé.[18] Potvrdí-li se dalším zkoumáním předpoklad, že rozptyly hodnot entropie získaných numericky se podstatně liší od rozptylu hodnot entropie získaných experimentálně, bude třeba vyvodit z toho jediný závěr: rozlišit entropii numerickou a entropii predikční.

Domnívám se, že rozlišení numerické a predikční entropie by mohlo být pokrokem při řešení uvedených zásadních otázek a mohlo by vést k překonání rozporů v lingvistické interpretaci entropie. Predikční entropie by byla interpretována jako informačně teoretická charakteristika stylů, numerická entropie pak jako informačně teoretická charakteristika jazyka. Zároveň by se střední hodnoty predikční entropie používalo jako pomocného a prozatímního odhadu mezní entropie pro výpočet redundance jazyka.

Rozlišení numerické a predikční entropie lze také plně zdůvodnit lingvistickými argumenty. Statistiky grafémů a jejich digramových kombinací, které máme k dispozici, nás jednoznačně přesvědčují o tom, že pro dostatečně rozsáhlé výběry jsou četnosti jejich výskytu značně stálé. Neexistují žádné lingvistické skutečnosti, které by opravňovaly předpoklad, že statistická stabilita charakterizující grafémové kombinace nízkých řádů bude porušena u kombinací vyšších řádů. Podmínka dostatečně dlouhého textu vylučuje totiž z grafémových statistik nejen jakýkoli vliv stylu, ale také jakýkoli vliv tematiky a významu textu. Lze tedy říci, že grafémové statistiky získané z dostatečně dlouhého textu a z nich vypočítané hodnoty numerické entropie jsou nezávislé na významu a stylu textů, z nichž byly získány.

Naproti tomu výsledky pokusů s predikcí a z nich odvozené hodnoty predikční entropie jsou podstatně závislé na významové výstavbě příslušného predikovaného textu. Zkušenosti z našeho pokusu ukazují, že pokusné osoby „hádají“ nikoli na základě statistických zákonitostí, nýbrž na základě významových vztahů. Proto [173]se jim některé texty „hádají“ snáze, některé obtížněji. Jinými slovy: vliv významové výstavby textu je obsažen v samé metodice predikčního pokusu, a proto ho nelze vyloučit žádným zvýšením rozsahu nebo počtu predikovaných textů.[19]

Vcelku tedy můžeme naši odpověď na první teoretickou otázku shrnout takto: Na základě statistiky grafémů a jejich kombinací zjišťujeme numerickou entropii, která vyjadřuje stochastickou strukturaci grafémové posloupnosti nezávislou na tematice, významu, stylu atd. konkrétních textů. Je tedy tato entropie parametrem jazykového systému. Předpokládá se ovšem výběr materiálu dostatečně reprezentativní. Na druhé straně, na základě výsledků pokusu s predikcí získáváme odhad predikční entropie, která závisí na tematice, významové výstavbě a stylu jednotlivých textů nebo jejich tříd. Je tedy charakteristikou stylistickou.

Zbývá zamyslet se krátce nad tím, zda naše výsledky dovolují zaujmout nějaké stanovisko k druhé zásadní otázce lingvistické interpretace entropie a redundance. Přijmeme-li totiž předpoklad, že střední hodnota predikční entropie (asi od 30. řádu) je uspokojivou aproximací mezní entropie jazyka, pak můžeme snadno vypočítat redundanci jazyka a získat tak základní údaj pro porovnání různých jazyků z hlediska statistické struktury.

Bude snad užitečné nejprve sestavit tabulku dostupných hodnot entropie a redundance pro různé jazyky a začlenit do ní údaje o psané češtině. Ponecháváme přitom stranou skutečnost, že hodnoty predikční mezní entropie nejsou zcela homogenní, jednak proto, že byly získány metodami, které se v detailech liší, jednak proto, že jsou aproximovány hodnotami různých řádů.

Tabulka V

	H₀	H₁	H₂	H₃	H_∞	R
rumunština¹	4,75	4,2			1,3	72 %
angličtina²	4,76	4,03	3,32	3,10	0,6—1,3	70 %—81 %
němčina³	4,76	4,10			1,3	66 %
švédština⁴	4,76	4,26			2,0	58 %
španělština⁵	4,76	3,98
francouzština⁶	4,92	4,16	3,76	3,39
ruština⁷	5,00	4,35	3,52	3,01	0,87—1,37	72 %—82 %
bulharština⁸	5,32
čeština	5,39	4,67	3,87		1,04—1,94	64 %—81 %

[174]Údaje byly získány z těchto pramenů: 1. Ed. Nicolau - C. Sala - Al. Roceric (cit. v pozn. 15). — 2. C. Shannon (cit. v pozn. 1). — 3. K. Küpfmüller, Die Entropie der deutschen Sprache, Fernmeldetechnische Zeitschrift 7, 1954, 265—272. — 4. H. Hansson, The entropy of the Swedish language, Transaction on the Second Prague conference on information theory, statistical decision functions, random processes, Prague 1960, s. 215—217; hodnoty H₀, H₁ a R jsme vypočítali sami na základě Hanssonovy tabulky četností švédských písmen. — 5. G. A. Barnard, Statistical calculation of word entropies for four western languages, IRE — Trans. on information theory I, 1955, č. 1. — 6. R. Moreau, Quelques remarques en vue d’un codage automatique des télécomunications, Automatisme, 1962, listopad, s. 1—8. — 7. D. S. Lebedev - V. A. Garmaš, Statističeskij analiz trechbukvennych sočetanij russkogo teksta, sb. Probleny peredači informacii, sv. 2, Moskva 1959, s. 78—80; A. A. Piotrovskaja - R. G. Piotrovskij - K. A. Razživin (cit. v pozn. 16). — 8. B. Penkov - A. Obretenov - B. Sendov - T. Kirpikova - T. Joukanov, Frequencies of letters in written Bulgarian, Doklady Bolgarskoj Akademii nauk — Comptes rendus de l’Académie bulgare des Sciences, sv. 15, 1962, č. 3, 243—244.

Na první pohled je patrné, že hodnoty redundance psané češtiny, získané nezávisle na hodnotách pro jiné jazyky, velmi dobře zapadají do dosavadního obrazu. Dolní mez redundance psané češtiny jen nepatrně překračuje nejnižší hodnotu redundance, jaká byla dosud získána (pro němčinu; odhad redundance švédštiny je velmi nespolehlivý); horní mez pak velmi přesně odpovídá horní mezi redundance v ruštině a angličtině. Redundance psané češtiny tedy spadá do očekávaného intervalu.

Přitom je třeba zdůraznit, že psaná čeština patří k jazykům s extrémně vysokým počtem jednotek abecedy. To podotýkáme proto, že jedinou vážnou korekturou myšlenky o univerzálnosti parametru redundance by zatím mohla být domněnka Newmanova a Waughova, že totiž redundance do jisté míry závisí na počtu písmen abecedy.[20]

Přikláním se tedy k názoru, že redundance představuje univerzální statistickou charakteristiku jazyka jako přirozeného společenského kódu. Hodnoty redundance pro různé konkrétní jazyky spadají v podstatě do jednoho intervalu (asi 65 % — 80 %). To nasvědčuje tomu, že jednotlivé jazyky nejen řeší v podstatě stejné úkoly, ale že je také řeší v podstatě stejným způsobem. Jejich statistická struktura je zřejmě výsledkem protikladného působení dvou tendencí: na jedné straně tendence k maximální ekonomičnosti, na druhé straně tendence k maximální efektivnosti, pojímané ve smyslu co nejlepšího plnění komunikačních úloh, které společnost od jazyka vyžaduje anebo může vyžadovat. Právě vzhledem k efektivnímu plnění svých komunikačních úloh musí mít jazyk dostatečné rezervy jak pro boj proti šumu, tak pro uspokojení případných budoucích společenských potřeb. Je tedy absurdní představa, že by optimální přirozený jazyk měl mít co nejnižší redundanci. Zdá se, že právě zmíněný interval hodnot redundance je tou mírou, která udává optimálnost přirozeného jazykového kódu, dosahovanou v rovnováze protikladně působících sil.

[175]R é s u m é

PRELIMINARY ESTIMATION OF ENTROPY AND REDUNDANCY OF WRITTEN CZECH

Using the method proposed by C. Shannon the basic values of entropy of written Czech were estimated. The estimate was based on the statistics of letters and their digram combinations in texts totalling 140.000 letters (Table I and II). A 42 letter alphabet was employed. The limit entropy, identified with the entropy H₃₀, was estimated by means of a prediction experiment (Table III). Then: H₀ = 5,39; H₁ = 4,67; H₂ = 3,87; H_∞ = 1,04—1,94. The redundancy of written Czech amounts to 80,73% — 63,94%.

The theoretical part of the paper attempts to give a preliminary answer to two fundamental questions of linguistics interpretation of entropy and redundancy: (a) whether these values are characteristic of language as a whole or of its individual styles; (b) whether there is an agreement or discord among different languages as far as these characteristics are concerned.

For this purpose, a comparison was made of the results obtained from five different samples of written Czech, representing five different styles (Table IV) and the values established for Czech were confronted with those valid in some other languages (Table V). On the basis of these comparison distinction is drawn between the numerical entropy, interpreted as a characteristic of language, and the predictive entropy, considered to be a characteristic of this or that particular style. Redundancy is interpreted as a universal statistical characteristic of the natural linguistic code.

[1] C. Shannon, Prediction and entropy of printed English, Bell system technical journal 30, 1951, č. 1., s. 50—64. Důkladný výklad pojmu entropie v matematickém aspektu v. u A. J. Chinčina Ponjatije entropii v teorii verojatnostej, Uspechi matemat. nauk, VIII, vyp. 3 (55), 1953, s. 3—20.

[2] Podstatně odlišný úkol je popis rozložení entropie v slabice, morfému, slově apod. K tomu viz např. studie: J. V. Padučeva, Statističeskoje issledovanije struktury sloga, Voprosy statistiki reči, Leningrad 1958, s. 100—111; K. Korvasová - B. Palek, Některé vlastnosti entropie českého slovníku, SaS 23, 1962, 58—66.

[3] Viz A. M. Jaglom - I. M. Jaglom, Verojatnosť i informacija, Moskva 1960², s. 200.

[4] Tuto metodu navrhl D. A. Bell v referátu The „internal information“ of English words, Communication theory (ed. W. Jackson), London 1953. Výklad metody je dobře přístupný v českém překladu Bellovy knihy Teorie informace a její použití v technice, Praha 1961, s. 84—88.

[5] Fr. Kroutl, Teorie informací ve spojích, Praha 1960, s. 115—128. Kritické připomínky k této metodě a ke Kroutlovým výsledkům viz v stati L. Doležela a J. Průchy K určení vnitřní informace českého jazyka, Sdělovací technika 11, 1963, s. 10.

[6] Přístupný výklad viz ve sb. O točnych metodach issledovanija jazyka, Moskva 1961, s. 128n. — Srov. recenzi v SaS 23, 1962, 131—137.

[7] Viz zejm.: E. B. Newman - L. J. Gerstman, A new method for analyzing printed English, Journal Exptl. Psychol. 44, 1952, 114—125; G. A. Miller - E. A. Friedman, The reconstruction of mutilated English text, Information and control 1, 1957, 38—55; D. H. Carson, Letter constraints within words in printed English, Kybernetik 1, 1961, s. 46—54; o metodě A. N. Kolmogorova v. zprávu N. Ryčkové v čas. Nauka i žizń, 1961, č. 9, s. 76n.

[8] Relativní četnosti jednotlivých grafémů námi zjištěné byly předběžně uveřejněny v knížce V. Dupače - J. Hájka Pravděpodobnost ve vědě a technice, Praha 1962, s. 59.

[9] Pokus provedla Marie Ludvíková z oddělení matematické a aplikované lingvistiky ÚJČ. Marii Königové děkuji za pomoc při výpočtech.

[10] Pro zajímavost uvádíme tabulku dolních a horních hranic hodnot H₁, H₂, H₃ … H₁₅, H₃₀, získanou na základě pokusů s predikcí:

H₁ = 3,2125—3,7000	H₇ = 2,2919—2,5735	H₁₃ = 1,8944—2,4467
H₂ = 2,6582—3,3738	H₈ = 2,0550—2,1592	H₁₄ = 1,6625—1,9237
H₃ = 2,9893—3,2841	H₉ = 1,9521—2,4210	H₁₅ = 1,8875—2,0078
H₄ = 2,6087—2,7077	H₁₀ = 2,1370—2,5741	H₃₀ = 1,0397—1,9444
H₅ = 1,7653—2,0299	H₁₁ = 2,1147—2,2273
H₆ = 2,1331—2,4336	H₁₂ = 1,8434—2,1184

[11] On human communication, New York—London 1957, s. 177. Viz též J. Nedoma, Poznámka o entropii jazyka, sborník 1. čs. konference o kybernetice, v tisku.

[12] G. Herdan, Language as choice and chance, Groningen 1956, kap. 9; Type-token mathematics, ’s-Gravenhage 1960, kap. III.

[13] W. Plath, který konfrontuje skeptické stanovisko Cherryho s jednoznačně kladným názorem Herdanovým, dodává: „Ať jsou relativní přednosti obou, poněkud protichůdných názorů jakékoli, hodnoty entropie byly počítány pro rozložení písmen a fonémů (které, jak se zdá, vykazují přiměřený stupeň stability) a pro rozložení slovních délek vyjádřených počtem slabik“ (Mathematical linguistics, Trends in European and American linguistics 1930—1960, Utrecht 1961, s. 31).

[14] I. Fónagy, Informationsgehalt von Wort und Laut in der Dichtung, sb. Poetics - Poetyka - Poetika, Warszawa 1961, s. 591n.; Communication in Poetry, Word 17, 1961, s. 199n.

[15] Ed. Nicolau - C. Sala - Al. Roceric, Observaţii asupra entropiei limbii romîne, Studii şi cercetări lingvistice 10, 1959, s. 51.

[16] A. A. Piotrovskaja - R. G. Piotrovskij - K. A. Razživin, Entropija russkogo jazyka, VJaz 11, 1962, čís. 6, s. 115—130.

[17] Poměrně vysokou hodnotu redundance u výběru F (Hrubínova próza U stolu) lze vysvětlit tím, že tuto prózu charakterizuje styl prostého vyprávění, blízký stylu hovorovému.

[18] Zvýšení hodnoty směrodatné odchylky u hodnot H₂ proti směrodatné odchylce hodnot H₁ vysvětlujeme tím, že statistické údaje o digramových kombinacích grafémů vykazují při stejném rozsahu výběru nutně větší výběrovou chybu než údaje o četnostech jednotlivých grafémů.

[19] Viz k tomu již v mém referátu Význam teorie informace pro marxistickou lingvistiku, sb. Problémy marxistické lingvistiky, Praha 1962, s. 64.

[20] Newman a Waugh (The redundancy of texts in three languages, Information and control 3, 1960, s. 141—153) zkoumali Newmanovou-Gerstmanovou metodou (viz studii cit. v pozn. 8) redundanci samojštiny (abeceda o 16 písmenech), angličtiny (abeceda o 27 písmenech) a ruštiny (abeceda o 35 písmenech). Jejich výsledky však nejsou přímo srovnatelné s výsledky získanými postupem Shannonovým, a proto je v tabulce V neuvádíme.

Slovo a slovesnost, volume 24 (1963), number 3, pp. 165-175

Previous Karel Horálek: K otázce přeložitelnosti

Next Antonín Vašek: Výstavba přičleňovacího větného celku v místním nářečí (Příspěvek k poznání nářeční promluvy)

Menu
About
Archive
New Journal Home
Archive search: