Časopis Slovo a slovesnost
en cz

Statistika českých grafémů s využitím moderní výpočetní techniky

Jan Králík

[Články]

(pdf)

Статистика чешских графем при помощи вычислительной техники / Statistics of the Czech graphemes with the aid of modern computational technique

Moderní výpočetní technika, bez níž je současnost i budoucnost kvantitativní lingvistiky dnes téměř nemyslitelná, umožňuje získat poměrně snadno statisticky reprezentativní data i v oblastech, kde shromáždění a utřídění většího materiálu bylo ještě donedávna značným problémem. Tuto přednost využití výpočetní techniky potvrdila i všestranná kvantitativní analýza současné spisovné češtiny, která se provádí v úseku matematické lingvistiky Ústavu pro jazyk český ČSAV za vedení M. Těšitelové. Vedle automatické analýzy textů na rovině lexikální, morfologické a syntaktické (Linguistica II—III; Těšitelová, 1983) bylo možno provést i statistickou analýzu grafematickou, založenou na dosud nejrozsáhlejším korpusu, jaký kdy byl u nás pro tento účel zkoumán — na korpusu o rozsahu více než tři milióny grafémů.

Jako materiál (srov. Linguistica II—III) posloužil soubor 180 textů (každý po 3000 slovech) věcného stylu, tedy korpus o rozsahu 540 000 slov (slovoforem), tj. 3 139 926 grafémů. Výběr věcného stylu (VS) přitom zahrnul styl odborný, publicistický a administrativní, a tím zaručil také jazykovou a tematickou reprezentativnost tohoto souboru. Uvedený materiál byl pomocí děrných štítků převeden do externí paměti počítače Tesla 200 (na magnetické pásky) ve výpočetních střediscích ÚTZCHT a ÚFPL (FÚ) ČSAV a zde podrobně automaticky zpracován pomocí několika typových řad speciálních programů (Králík, 1982; Těšitelová, zde, s. 275).

Ke starším statistickým výzkumům českého grafematického systému (srov. zejm. Ludvíková - Königová, 1967) tak nyní můžeme připojit nová data, získaná za pomoci moderní výpočetní techniky — a proto velmi rychle a snadno — ze soudobého jazykového materiálu (srov. pro slovenštinu Mistrík, 1979).

1. Do grafematického systému češtiny se, jak známo (Šmilauer, 1972), obvykle řadí 24 základních latinských grafických znaků (písmen), z nichž 13 (více než polovina) přijímá diakritická znaménka, rozlišující jednak fonetickou kvantitu (čárkou, kroužkem), jednak kvalitu (háčkem, nahrazovaným u d a t někdy z výtvarných důvodů jednodušším apostrofem: ď, ť); písmena c a h se jako jediná dvojice spojují ve spřežku ch, a to vždy, stojí-li za sebou v tomto pořadí. Úplný grafematický systém češtiny tak tvoří 39 samostatných znaků (včetně spřežky ch); vedle toho se k nim přiřazují grafémy q, w, a x, které se vyskytují ve slovech cizích nebo přejatých. S nimi dosahuje počet grafémů užívaných v českých textech čísla 42. V našem výběru se dále vyskytly tyto cizí grafémy: à, ä, å, ć, è, ë, ê, ï, ĺ, ł, ľ, ń, ô, ö, ŕ, ś, ü, ӱ, ż. Celkem na ně připadá 119 výskytů.

Pokud jde o diakritická znaménka, využívají se v češtině takto:

Znaménko

Počet užití

Frekvence v textech VS

v systému písmen

absolutní četnost

%

čárka

6

252 658

8,0466

kroužek

1

21 820

0,6949

háček

8

180 784

5,7576

Diakritika se vyskytují celkem u 13 písmen v systému (tj. u 31 %), v textu má diakritikum v průměru každé sedmé písmeno (14,5 %). Z cizích diakritik se nejčastěji (přesto velmi zřídka) uplatňuje přehláska (47 případů v našem materiálu, tj. 0,0015 %).

 

[296]Statistika grafémů ve věcném stylu (VS)

Grafém

Frekvence

%

Grafém

Frekvence

%

a

195 282

6,2193

o

272 119

8,6664

á

70 193

2,2355

ó

982

0,0313

b

48 927

1,5582

p

107 157

3,4127

c

50 449

1,6067

q

41

0,0013

č

29 799

0,9490

r

116 083

3,6970

d

113 097

3,6019

ř

38 201

1,2166

ď

697

0,0222

s

141 798

4,5160

e

241 622

7,6952

š

25 283

0,8052

é

41 906

1,3346

t

179 817

5,7268

ě

51 662

1,6453

ť

1 338

0,0426

f

8 577

0,2732

u

98 730

3,1443

g

8 568

0,2729

ú

3 236

0,1031

h

39 914

1,2712

ů

21 816

0,6948

ch

36 766

1,1709

v

146 369

4,6616

i

136 673

4,3528

w

276

0,0088

í

102 673

3,2699

x

2 370

0,0755

j

66 549

2,1194

y

59 950

1,9093

k

117 329

3,7367

ý

33 662

1,0721

l

120 649

3,8424

z

69 038

2,1987

m

101 317

3,2267

ž

31 250

0,9952

n

205 204

6,5353

 

 

 

ň

2 557

0,0814

Σ

3 139 926

100,0000

Tab. č. 1

 

Protože ani strojový vstup z děrných štítků, ani strojová tiskárna počítače nejsou vybaveny písmeny s diakritickými znaménky, bylo třeba řešit záznam a tisk (vstup a výstup) zvláštním postupem.

Při projektu záznamu (vstupu) textu do externí paměti počítače bylo třeba brát v úvahu nejen grafický problém diakritik, ale také specifiku české normy abecedního řazení (zakotvené v ČSN 01 0181), podle které se písmena č, ř, š, ž řadí za obdobná písmena bez háčků, zatímco písmena ď, ě, ň, ť stejně jako písmena s čárkami á, é, í, ó, ú, ý se řadí v zásadě tak, jako by diakritická znaménka neměla. Pouze pro případy, kdy je třeba určit pořadí bezprostředně sousedících slov rozlišených pouze diakritickým znaménkem (typ: krásné - krásně, užití - užíti), určuje se pravidlo, podle kterého následuje písmeno s diakritickým znaménkem po písmenu bez diakritika (pan - pán, vedro - vědro) a pro znaménka se určuje pořadí čárka, háček, popř. čárka, kroužek (kúra - kůra). Spřežka ch má místo mezi písmeny h a i.

Aby bylo možno tyto zvláštnosti respektovat i při automatickém strojovém zpracování, bylo třeba především zachovat všechna diakritika a nově pojmout spřežku ch. Pro záznam na vstupní médium (děrné štítky) jsme proto jednak vypracovali zvláštní kód pro písmena s diakritiky (na běžných děrovačích ve výpočetních střediscích ČSAV jsme např. namísto á děrovali “-”, namísto ě znak “/” atd.), jednak jsme využili zvláštní úpravy klávesnic na děrovačích Bull a popisovače ve výpočetní laboratoři úseku matematické lingvistiky ÚJČ ČSAV (klávesnice i popisovač zde byly již dříve vybaveny písmeny s diakritiky a samostatným znakem pro ch; jediným omezením tu byl pouze jeden znak pro dlouhé u ú). Pro štítky

 

[297]Frekvenční seznam grafémů ve věcném stylu (VS) 

Grafém

Frekvence

%

Grafém

Frekvence

%

o

272 119

8,6664

b

48 927

1,5582

e

241 622

7,6952

é

41 906

1,3346

n

205 204

6,5353

h

39 914

1,2712

a

195 282

6,2193

ř

38 201

1,2166

t

179 817

5,7268

ch

36 766

1,1709

v

146 369

4,6616

ý

33 662

1,0721

s

141 798

4,5160

ž

31 250

0,9952

i

136 673

4,3528

č

29 799

0,9490

l

120 649

3,8424

š

25 283

0,8052

k

117 329

3,7367

ů

21 816

0,6948

r

116 083

3,6970

f

8 577

0,2732

d

113 097

3,6019

g

8 568

0,2729

p

107 157

3,4127

ú

3 236

0,1031

í

102 673

3,2699

ň

2 557

0,0814

m

101 317

3,2267

x

2 370

0,0755

u

98 730

3,1443

ť

1 338

0,0426

á

70 193

2,2355

ó

982

0,0313

z

69 038

2,1987

ď

697

0,0222

j

66 549

2,1194

w

276

0,0088

y

59 950

1,9093

q

41

0,0013

ě

51 662

1,6453

 

 

 

c

50 449

1,6067

Σ

3 139 926

100,0000

 Tab. č. 2

 

s těmito dvěma různými způsoby záznamu pak byly připraveny dva různé překladové podprogramy, kterými byly záznamy alfabetických znaků převáděny do nové jednotné verze a v té ukládány na magnetickou pásku (tzv. grafémová verze). Vedle toho byl pro každý grafém pořízen zvláštní strojový překlad, který pomohl zaručit respektování normy českého abecedního řazení (např. grafémům e, é, ě řazeným podle normy tak, jako by nebyly nijak rozlišeny, tu přísluší týž jednoznačně uspořádatelný symbol). Z tohoto důvodu se délka alfabetického záznamu každého slova zdvojnásobila. Aby byla zachována možnost kontroly tzv. přímým znakovým výpisem z magnetické pásky, ponechali jsme v překladu písmena bez diakritik beze změny. Pro vlastní třídicí program bylo proto třeba definovat zvláštní sekvenci znaků.

Při retrográdním třídění se naopak ukázala potřeba řadit grafémy důsledně mechanicky (srov. Štindlová, 1966), tj. každému grafému (i písmenům ď, ě, ň, ť a grafémům dlouhých vokálů) určit v abecedním uspořádání pevné místo na základě pravidla, podle něhož písmena s diakritiky následují za příslušnými písmeny bez diakritik, a pravidla určujícího pro diakritika pořadí čárka, háček, kroužek (viz výše). Znovu se tu osvědčilo strojové překládání spřežky ch jednomístným symbolem se samostatným abecedním zařazením mezi h a i (dvoumístně chápané ch by jinak stroj automaticky řadil mezi cg a ci, tedy před č, d, e, f, g, h). Retrográdní třídění si tak vyžádalo jiný systém jednoznačně uspořádatelných překladových sym-

 

[298]Frekvence grafémů v odborné češtině 

Grafém

Frekvence

%

Grafém

Frekvence

%

o

155 142

8,7828

b

27 057

1,5317

e

138 840

7,8599

é

24 450

1,3841

n

114 470

6,4803

h

22 461

1,2715

a

107 517

6,0866

ch

21 015

1,1897

t

106 011

6,0014

ř

20 665

1,1699

v

80 057

4,5321

ý

19 549

1,1067

s

78 717

4,4562

ž

17 356

0,9825

i

77 590

4,3924

č

15 596

0,8829

k

67 058

3,7962

š

12 624

0,7146

l

66 036

3,7384

ů

11 770

0,6663

r

65 052

3,6827

f

5 740

0,3249

d

60 804

3,4422

g

5 451

0,3086

p

59 311

3,3577

x

1 714

0,0970

m

58 926

3,3359

ú

1 575

0,0892

í

56 883

3,2202

ň

1 411

0,0799

u

56 001

3,1703

ť

773

0,0438

z

39 307

2,2252

ó

591

0,0335

j

39 211

2,2198

ď

406

0,0230

á

38 066

2,1550

w

160

0,0091

y

35 076

1,9857

q

37

0,0021

ě

28 252

1,5994

 

 

 

c

27 709

1,5686

Σ

1 766 437

100,0000

 Tab. č. 3

 

bolů, a tedy jiný překlad a jinou přípravu strojového třídění. V tomto případě byl překlad alfabetických dat do jednoznačně uspořádatelných symbolů izomorfním zobrazením mezi dvěma množinami znaků, a nebylo proto třeba zachovávat původní grafémovou verzi. Záznam mohl být kratší a třídění jednorázové, bez definování zvláštní sekvence znaků (využívalo se interně definovaného pořadí). Pouze pro přípravu tisku (výstupu) bylo třeba vypracovat podprogram automatické inverze použitého překladu.

Problém tisku (výstupu) písmen s diakritickými znaménky na řádkové tiskárně počítače jsme řešili užitím dvouřádkového systému, tedy kompozicí písmen s diakritiky složením z šikmé čáry v horním řádku a písmene v dolním řádku, resp. ze znaku „V“ (na místě háčku) a písmene pod ním. Zmíněné technické omezení záznamu (a tím i tisku) dlouhého u (ú) nečinilo při čtení slov i celých textů žádné obtíže. (S tím související statistický problém kvantitativního poměru ú/ů jsme řešili zvláštní statistickou sondou.)

 

2. Základem vlastního statistického šetření byl speciální (stavebně však jednoduchý) sčítací program, kterým se automaticky analyzovaly a statisticky postupně zpracovávaly všechny zkoumané texty. Pro zjištění frekvencí grafémů v koncové pozici (viz dále) bylo použito pracovního retrográdního obrácení grafických slov (tvarů) a grafické podoby slovníku (lexémů).

 

[299]Frekvence grafémů v české publicistice

Grafém

Frekvence

%

Grafém

Frekvence

%

o

85 547

8,4419

b

16 368

1,6152

e

76 508

7,5499

é

13 224

1,3050

a

65 248

6,4388

h

12 885

1,2715

n

65 176

6,4317

ř

12 788

1,2619

t

55 899

5,5162

ch

11 890

1,1733

s

48 131

4,7496

ž

10 952

1,0808

v

47 609

4,6981

ý

10 425

1,0288

i

44 859

4,4268

č

9 886

0,9756

l

41 551

4,1003

š

9 765

0,9636

k

37 933

3,7433

ů

6 984

0,6892

d

37 499

3,7005

g

2 201

0,2172

r

36 745

3,6261

f

2 042

0,2015

p

33 254

3,2816

ú

1 162

0,1147

í

32 677

3,2246

ň

725

0,0715

m

32 457

3,2029

ť

426

0,0420

u

30 882

3,0475

x

406

0,0401

á

23 057

2,2753

ó

334

0,0329

j

21 363

2,1081

ď

234

0,0231

z

21 273

2,0992

w

103

0,0102

y

18 564

1,8319

q

3

0,0003

ě

17 873

1,7637

 

 

 

c

16 453

1,6236

Σ

1 013 361

100,0000

Tab. č. 4

 

Souhrnný výsledek každé grafematické statistiky — po sečtení všech grafémů a všech slov — poskytuje zároveň data o průměrné délce grafického slova, která se měří v počtu grafémů:

 

Počet slov

Věcný styl

 

Texty

 

 

celkem

odborné

public.

admin.

 

540 000

300 000

180 000

60 000

grafických slov

568 634

318 211

188 117

62 406

grafických znaků

3 140 590

1 766 854

1 013 437

360 299

grafémů

3 139 926

1 766 437

1 013 361

360 128

 

 

 

 

 

Průměrná délka

 

 

 

 

grafického slova

5,5219

5,5512

5,3869

5,7707

Poznámka: Grafické slovo je zde důsledně písmeno nebo skupina písmen mezi dvěma mezerami; grafémem rozumíme písmeno; grafickým znakem rozumíme buď písmeno, nebo samostatný grafický znak uvnitř slova (takové znaky se vyskytly pouze dva: spojovník — s frekvencí 660 (0,0210 %) a apostrof ’ — s frekvencí 4 (0,0001 %)).

 

[300]Frekvence grafémů v textech administrativních 

Grafém

Frekvence

%

Grafém

Frekvence

%

o

31 430

8,7275

b

5 502

1,5278

e

26 274

7,2958

ř

4 748

1,3184

n

25 558

7,0969

h

4 568

1,2684

a

22 517

6,2525

č

4 317

1,1987

v

18 703

5,1934

é

4 232

1,1751

t

17 907

4,9724

ch

3 861

1,0721

s

14 950

4,1513

ý

3 688

1,0241

d

14 794

4,1080

ů

3 062

0,8503

p

14 592

4,0519

ž

2 942

0,8169

r

14 286

3,9669

š

2 894

0,8036

i

14 224

3,9497

g

916

0,2544

í

13 113

3,6412

f

795

0,2208

l

13 062

3,6270

ú

499

0,1386

k

12 338

3,4260

ň

421

0,1169

u

11 847

3,2897

x

250

0,0694

m

9 934

2,7585

ť

139

0,0386

á

9 070

2,5185

ď

57

0,0158

z

8 458

2,3486

ó

57

0,0158

y

6 310

1,7522

w

13

0,0036

c

6 287

1,7458

q

1

0,0003

j

5 975

1,6591

 

 

 

ě

5 537

1,5375

Σ

360 128

100,0000

Tab. č. 5

 

V rámci odborných textů kolísá délka slova měřená v grafémech od nízké hodnoty 5,2626 (u textů mluvených) k maximu 5,8593 (u textů psaných); průměrně se udržuje nad hranicí 5,5. Podobně výrazný pokles délky slova lze pozorovat u publicistických textů (u mluvených pod hranicí 5,3, u psaných kolem 5,5). Pro administrativní texty (i mluvené) jsou typická delší slova (asi 5,8).

 

3. Některé základní výsledky statistiky grafémů v češtině uvádíme v tabulkách č. 1—5. V tab. č. 6 (na s. 301) pro větší názornost konfrontujeme naše data s dalším materiálem. Ukazují se tu zajímavé skutečnosti.

Frekvence grafémů (tab. č. 1—2) např. potvrzuje silnou stabilitu pořadí nejfrekventovanějších grafémů i numerických hodnot jejich relativních četností. U většiny grafémů jsou výkyvy ve frekvenci uvnitř korpusu statisticky nevýznamné, v hodnotách frekvence grafémů obvykle nepřekročí 0,6 %. I při této stabilitě však lze dobře sledovat, jak se z hlediska statistiky grafémů výrazně odlišují texty administrativního stylu od publicistiky a odborné češtiny (tab. č. 3—5). Např. neosobní úřední (administrativní) vyjadřování, které v češtině neužívá mj. slovesných tvarů 1. os. sg. a pl. pomocného slovesa být (tj. tvarů jsem, jsme), snižuje frekvenci grafémů e, j, m, s (tab. č. 5). Naopak výrazně vyšší relativní frekvenci má v administrativních textech grafém č, vyskytující se ve slovech český, československý, Československo a ve zkratkách čs., ČSR, ČSSR apod. (ostatní grafémy v těchto slovech a zkratkách jsou

 

[301]Frekvenční seznam počátečních písmen ve slovníku

(% slov začínajících daným grafémem)

SSČ

VS

SSČ

VS

p

14,5973

p

15,3422

c

0,9250

č

1,0877

z

13,8160

s

8,9895

f

0,9240

c

1,0397

s

9,1152

v

8,0136

ú

0,8685

g

0,9357

v

8,4380

z

7,1979

ch

0,8464

ch

0,8584

n

5,6097

n

6,4301

i

0,7422

ú

0,7332

k

5,5733

k

6,1102

e

0,6784

ž

0,6105

o

5,1019

o

5,7210

ř

0,5208

ř

0,3919

r

4,2711

d

4,9079

g

0,4297

e

0,3572

d

3,8023

m

4,3614

w

0,0260

w

0,1759

m

3,6461

r

4,0655

x

0,0260

y

0,0400

t

3,4507

t

3,7189

á

0,0156

x

0,0240

b

2,8648

b

3,4017

ť

0,0136

q

0,0213

u

2,2697

h

2,9831

ď

0,0130

á

0,0160

h

2,6108

u

2,4100

q

0,0130

í

0,0133

l

1,8491

l

2,3220

y

0,0130

é

0,0079

š

1,7189

a

1,9061

é

0,0065

ť

0,0079

j

1,5365

j

1,6369

í

0,0026

ď

0,0026

a

1,4324

f

1,4796

ň

0,0026

 

 

ž

1,1719

i

1,4502

ó

0,0026

 

 

č

1,0548

š

1,2290

 

 

 

 

Tab. č. 6

 

přitom v zásadě frekventovanější, přírůstek výskytu je u nich proto relativně méně patrný než u jinak řídkého č).

Podobnou distinktivní vlastnost má ve zkoumaných textech dlouhé u (ú, ů). Statistické sondy ukázaly několikanásobnou (v průměru sedminásobnou převahu ů nad ú (v rozpětí od 6,0103krát v publicistice do 7,4740krát v odborné češtině). V odborných textech je tento poměr značně ovlivněn relativně vyšší frekvencí ů v genitivu pl. maskulin, v publicistice naopak zřejmě vyšší frekvencí ú ve slovech jako úkol, úspěch, účast, úsek, ústřední (i ve zkratce ÚV). (K příčinám vyšší frekvence některých grafémů viz Králík, v tisku.)

Úprava sčítacího programu omezením pouze na první pozici grafému ve slově umožnila získat přehled o frekvenci počátečních písmen ve slovech. Aby mohla i tato statistika sloužit praktickým účelům, pořídili jsme ji z materiálu slovníku celého korpusu VS (tab. č. 6) a její výsledky konfrontujeme se statistickým šetřením na materiálu jednosvazkového Slovníku spisovné češtiny, 1978 (SSČ). Také u počátečních písmen je frekvence pořadí poměrně stabilní (srov. Těšitelová, 1965).

Po strojovém retrográdním přeskupení (obrácení) magnetického záznamu hesel slovníku (lexémů) bylo možno užitím téhož sčítacího programu získat kvantitativní údaje o rozložení frekvencí grafémů v koncové pozici ve slovníku, tedy obvyklou součtovou statistiku uváděnou v retrográdních slovnících (frekvence posledního písmene v lexémech).

O významu studia frekvence grafémů se zřetelem k jejich pozici ve slově svědčí tab. č. 7. Invariantní vzhledem k pozici ve slově není žádný grafém. Určitý náznak vy-

 

[302]Statistika grafémů v závislosti na jejich pozici ve slově

(na materiálu VS) 

 

 

V textu

 

Grafém

Na počátku

bez ohledu

Na konci slova

 

slova

na pozici

ve slovníku

v repertoáru tvarů

a

1,9061

6,2193

9,1360

5,2464

á

0,0160

2,2355

1,1010

2,5167

b

3,4017

1,5582

0,1893

0,1274

c

1,0397

1,6067

0,8744

0,3384

č

1,0877

0,9490

0,5518

0,0969

d

4,9079

3,6019

1,0397

0,4619

ď

0,0026

0,0222

0,0373

0,0247

e

0,3572

7,6952

5,0705

5,9953

é

0,0079

1,3346

0,5572

6,7309

ě

1,6453

3,1404

2,2506

f

1,4796

0,2732

0,1546

0,0304

g

0,9357

0,2729

0,2559

0,0494

h

2,9831

1,2712

0,2879

0,1388

ch

0,8584

1,1709

0,3252

6,1778

i

1,4502

4,3528

16,9763

6,8050

í

0,0133

3,2699

10,8940

14,2944

j

1,6369

2,1194

0,3279

0,2034

k

6,1102

3,7367

3,6149

1,2831

l

2,3220

3,8424

1,4742

2,4958

m

4,3614

3,2267

1,2876

7,1871

n

6,4301

6,5353

2,1727

1,2869

ň

0,0814

0,1839

0,0874

o

5,7210

8,6664

2,3540

5,2007

ó

0,0313

0,0080

0,0057

p

15,3422

3,4127

0,4052

0,1464

q

0,0213

0,0013

0,0080

0,0019

r

4,0655

3,6970

1,7115

0,5817

ř

0,3919

1,2166

0,4772

0,0836

s

8,9895

4,5160

1,9034

0,5037

š

1,2290

0,8052

0,2399

0,0969

t

3,7189

5,7268

4,5347

4,0754

ť

0,0079

0,0426

0,1413

0,0931

u

2,4100

3,1443

0,1999

8,9454

ú

0,7332

0,1031

0,0213

ů

0,6948

0,0506

2,0606

v

8,0136

4,6616

1,8421

0,4619

w

0,1759

0,0088

0,0293

0,0076

x

0,0240

0,0755

0,1173

0,0304

y

0,0400

1,9093

1,3863

11,1143

ý

1,0721

19,1570

2,1232

[303]z

7,1979

2,1987

0,3572

0,1730

ž

0,6105

0,9952

0,4025

0,4657

Σ

100,0000 %

100,0000 %

100,0000 %

100,0000 %

 

 

 

 

 

počet

 

 

 

 

různých

37

42

42

41

grafémů

 

 

 

 

Tab. č. 7

 

rovnání frekvencí v různých pozicích (ovšem se zásadně odlišnými motivacemi) by bylo možno nalézt u grafémů t a l, méně u grafémů o a k.U všech ostatních grafémů se frekvence v různých pozicích navzájem mnohonásobně liší (u grafému í až o tři dekadické řády) (srov. Konečná - Hronek, 1962).

Z hlediska morfologického a slovotvorného, ale i z hlediska morfematické analýzy je užitečné sledovat frekvenci grafémů na konci slov nejen pouze vzhledem k pozici posledního grafému, ale i u posledních dvou grafémů (digramů), ev. trigramů atd.; pro nedostatek místa zde uvádíme jen část seznamu nejfrekventovanějších digramů

 

Nejfrekventovanější koncové digramy

(v repertoáru tvarů slov — VS) 

3841

ku

542

259

130

ky

2877

je

534

ech

254

127

ou

1886

515

ry

249

te

119

ých

1623

ém

498

nu

248

ám

119

ho

1558

ci

495

ům

246

án

119

1378

mu

489

233

ne

118

ích

1058

486

vy

231

et

117

ím

1017

me

480

ru

225

ře

116

em

973

lo

477

le

212

ji

116

mi

939

it

448

va

202

ni

114

917

434

el

201

in

113

ce

891

al

426

199

112

la

844

st

419

188

112

li

829

ka

395

188

ží

110

ny

769

ty

358

ách

184

hu

104

ým

729

ek

352

ta

181

čí

101

708

il

341

to

178

or

99

699

326

ie

176

my

99

at

662

290

171

su

97

658

tu

285

163

ze

94

649

no

281

lu

156

ii

94

ti

599

270

ra

145

ík

94

ší

593

du

265

by

136

92

ly

572

en

259

133

át

92

na

551

dy

259

vu

133

da

91

Tab. č. 8

 

[304]z materiálu všech tvarů slov v korpusu VS (tab. č. 8) (srov. Korvasová - Palek, 1962; Ludvíková - Königová, 1967).

Předkládaná data o frekvenci grafémů v češtině jsou výběrem z výsledků širší analýzy, opírající se o výpisy a další tabulky, které jsou uloženy v úseku matematické lingvistiky ÚJČ ČSAV.

 

LITERATURA

 

KONEČNÁ, D. - HRONEK, J.: Morfologická analýza podle posledního písmena. Slavica Pragensia, 4. AUC. Praha 1962, s. 259—266.

KÖNIGOVÁ, M.: K otázce statistického výběru v lingvistice. SaS, 26, 1965, s. 161—168.

KORVASOVÁ, K. - PALEK, B.: Některé kvantitativní charakteristiky kombinací písmen v českém slovníku. Slavica Pragensia, 4. AUC. Praha 1962, s. 89—95.

KRÁLÍK, J.: Technika zpracování hromadných dat. In: Linguistica II, s. 72—80.

KRÁLÍK, J.: Kvantitativní charakteristiky českého systému grafematického. In: Kvantitativní charakteristiky současné češtiny. M. Těšitelová a kol. (V tisku.)

KRÁLÍK, J.: Kvantitativní charakteristiky grafémů v psaných a mluvených odborných projevech. In: Psaná a mluvená odborná čeština z kvantitativního hlediska. Ed. M. Těšitelová. Linguistica IV. ÚJČ ČSAV, Praha 1983, s. 121—127.

KRAUS, J.: K některým otázkám pravopisu z hlediska grafematické soustavy. SaS, 26, 1965, s. 51—54.

KVANTITATIVNÍ CHARAKTERISTIKY SOUČASNÉ ČESKÉ PUBLICISTIKY. Linguistica II—III. Ed. M. Těšitelová. Praha 1982.

LUDVÍKOVÁ, M. - KÖNIGOVÁ, M.: Quantitative research of graphemes and phonemes in Czech. PBML, 7, 1967, s. 15—29.

LUDVÍKOVÁ, M. - KRAUS, J.: Kvantitativní vlastnosti soustavy českých fonémů. SaS, 27, 1966, s. 334—344.

MISTRÍK, J.: Frekvencija grafém v slovenčine. SlR, 44, 1979, s. 193—204.

ŠMILAUER, V.: Nauka o českém jazyku. Praha 1972, s. 241—245.

ŠTINDLOVÁ, J.: Podruhé o retrográdních slovnících. SaS, 27, 1966, s. 370—374.

TĚŠITELOVÁ, M.: O entropii počátečních písmen v češtině. Informační bulletin pro otázky jazykovědné. Kvantitativní lingvistika, 6, 1965, s. 31—37.

TĚŠITELOVÁ, M.: Some quantitative characteristics of non-fiction texts in present-day Czech. PSML, 8, 1983 (v tisku).

 

R É S U M É

Statistics of the Czech graphemes with the aid of modern computational technique

The author describes the procedure of an automatic processing of a set of texts performed with the purpose to obtain frequencies of the Czech graphemes. The analysis is based on the material of non-fiction style (VS) including as components newspaper texts, texts of administration and texts of science and technology. The statistical results are presented in tables 1—8.

Slovo a slovesnost, ročník 44 (1983), číslo 4, s. 295-304

Předchozí Ludmila Uhlířová: Aktuální členění a styl jazykových projevů (na materiále z publicistických textů)

Následující Petr Sgall: Teoretická lingvistika ve věku počítačů