Časopis Slovo a slovesnost
en cz

K využití statistických metod v kombinaci s retrográdním uspořádáním jazykových jednotek

Marie Těšitelová

[Články]

(pdf)

К использованию статистических методов в связи с ретроградным упорядочением единиц языка / On the use of statistical methods in combination to the reverse arrangement of linguistic units

Moderní výpočetní technika, zejména samočinné počítače, ovlivnily — jak známo — metodologii rozličných vědních oblastí, počítaje v to i lingvistiku. Jde zvláště o matematickou a strojovou lingvistiku, která se v posledních dvaceti letech i u nás vyhranila a konstituovala jako samostatná lingvistická disciplína; dvoučlennost oboru jasně svědčí o základní úloze moderní výpočetní techniky a dodejme ve vztahu jak k lingvistice algebraické, tak i k lingvistice kvantitativní, dvěma podstatným složkám matematické lingvistiky. Využití moderní výpočetní techniky se projevuje i v dílčích výsledcích jednotlivých disciplín, ev. jejich složek. Tak v oblasti kvantitativní lingvistiky vznikl s pomocí samočinného počítače nový typ slovníku, frekvenční retrográdní slovník. Jeho principy v širším rámci kvantitativní analýzy současného jazyka budou předmětem dalších výkladů tohoto příspěvku.

1. K pojmu frekvenční retrográdní slovník

Připomeňme, že frekvenční slovníky i retrográdní slovníky samy o sobě mají více než stoletou tradici (Těšitelová, 1977; průběžně v SaS od r. 1960). Zatímco frekvenční slovníky jsou v podstatě víceúčelové seznamy slov provázené daty o jejich frekvenci, která byla zjištěna na základě dostatečně reprezentativního materiálu (Těšitelová, 1977, s. 140), retrográdní slovníky abecedně pořádají slova podle jejich pravé strany, tj. a tergo. Využitím moderní výpočetní techniky zaznamenaly slovníky obojího typu výrazný pokrok, a to z hlediska jak lingvistického, tak i technického. A právě tento vědeckotechnický pokrok vedl ke vzniku slovníku, který zachycuje jazykovou jednotku (slovo, lexikální jednotku, tvar slova) a tergo ve spojení s její frekvencí, tj. kombinuje hodnocení frekvenční (v širokém slova smyslu statistické) s uspořádáním retrográdním. Hodnota slovníků dílčích, frekvenčního a retrográdního, záleží (1.) na materiálu, o nějž se opírá, (2.) na množství informací, které přináší, přirozeně vedle techniky zpracování, která obě uvedené hodnoty podmiňuje. Prvním dvěma kritériím budeme dále věnovat pozornost a doložím je konkrétními příklady z Retrográdního slovníku současné češtiny (Těšitelová - Petr - Králík, v tisku, dále RSSČ).[1]

1.1. Pokud jde o materiál, jsou dosavadní frekvenční slovníky většinou založeny na analýze textů (srov. Jelínek - Bečka - Těšitelová, 1961; Těšitelová a kol., 1983, dále FSVS). Slovníky retrográdní se až dosud zpravidla opíraly o systém slovní zásoby v dvojjazyčných slovnících (srov. např. Mater, 1965; Slavíčková, 1975), ojediněle o frekvenční slovník (Mistrík, 1969; 1976), tedy o systém slovní zásoby, který byl ovšem získán analýzou textů. Materiál založený na analýze korpusu textů, tj. při komunikaci, ukazuje se jako optimální i pro studium slov při uspořádání retrográdním. Dokládá to i nový RSSČ, který vzal za základ materiál FSVS, tj. korpus 540 000 slov, který byl získán s pomocí počítače IBM 370 při všestranné kvantitativní analýze textů publicistických, odborných a administrativních. Jde tedy o materiál, v němž je každé slovo provázeno absolutní frekvencí a vytváří spolehlivý podklad pro další jeho zpracovávání a interpretaci.

1.2. Počet informací, které frekvenční retrográdní slovník o svých jednotkách přináší nebo má přinášet, závisí především na tom, s jakou jednotkou souboru se [110]pracuje. Dosavadní retrográdní slovníky většinou dosud pracují s lexémem, s různým slovem ve smyslu lexikální statistiky, vzatým ze systému slovní zásoby. Frekvenční slovníky dosud zpravidla volí za jednotku tvar slova, získaný analýzou textů, ve výsledných seznamech však transformovaný v základní podobu, v lexém. Ve frekvenčním retrográdním slovníku se ukazuje výhodným postupem, zejména vzhledem k růstu počtu informací získaných o slovech, pracovat s dvěma jednotkami, (1.) s lexémem (různým slovem), (2.) s tvarem slova, a to tak, že se obě jednotky získávají analýzou textů. Tvar slova jako samostatná jednotka se v dosavadních slovnících, frekvenčních i retrográdních, uvádí velmi zřídka; najdeme jej např. ve starších frekvenčních slovnících angličtiny, tedy jazyka s tzv. chudou morfologií (srov. Thorndike, 1921; 1931—1932). Ve slovanských jazycích, pokud je mi známo, se s touto jednotkou ve frekvenčních slovnících setkáváme zřídka (srov. pro češtinu Těšitelová, 1974, s. 73—78).

1.2.1. O počtu informací, které přináší frekvenční retrográdní slovník, rozhodují dále údaje kvantitativní, absolutní a relativní frekvence, průměry, různé koeficienty, indexy apod. Aby bylo možno těchto charakteristik náležitě využít k prohloubenému studiu slovní zásoby i gramatiky příslušného jazyka (srov. dále), zejména v oblasti morfologie, ukazuje se nutné spojovat je s identifikací příslušných charakteristik, které můžeme označit jako kvalitativní.

1.2.2. Tzv. kvalitativní údaje o slově ve frekvenčním retrográdním slovníku jsou v podstatě údaje kategoriální, pokud chápeme jazykové jednotky jako základní pojmy, kategorie, které obrážejí „nejobecnější a nejpodstatnější vlastnosti, stránky, vztahy jevů skutečnosti a poznání“ (Filozofický slovník, 1976, s. 218). V daném případě jde o to, že postižení slovnědruhových i morfologických kategorií — v rámci gramatických kategorií — prohlubuje naše poznání, jak slova a jejich tvary fungují v textu, při komunikaci (Těšitelová, v tisku).

Pracujeme-li se samočinným počítačem a ukládáme data na magnetickou pásku, můžeme kategoriální charakteristiky zajistit např. ve formě číselného kódu, srov. RSSČ.

U jednotlivých jednotek se tímto způsobem zaznamenává především slovnědruhová příslušnost, kterou se v jazycích, jako je čeština, ruší homonymie lexikální a morfologická, srov. věda (subst. fem. v nom. sg.) a věda (přech. přít. akt. mask. ned. slovesa vědět), v kódu RSSČ: 110311 - 52-711; září (subst. fem. zář, např. v instr. sg. a gen. pl.) - září (subst. neutr. září, např. v nom. sg.) - září (3. os. sg. nebo pl. ind. préz. akt. slovesa ned. zářit), v kódu RSSČ: 110311, 110317 - 110411 - 5231-12 - 5261-16.

Sám kód — bez zvláštního uvedení, které kategorie jednotlivé číslice v našich příkladech reprezentují — jasně ukazuje, že jde o různá slova. Z uvedených příkladů také vyplývá, že vedle údajů o slovnědruhové příslušnosti a konverzi, popř. o druhu, např. u zájmen, číslovek a příslovcí, vyžaduje kvalitativní určení tvarů slov uvést i morfologické kategorie (u jména pád, číslo a jmenný rod, u sloves pak osobu, číslo, čas, způsob (modus), slovesný a jmenný rod). Z technických důvodů při práci se samočinným počítačem se ukazuje výhodnější uvádět jednotlivé kategorie — zejména morfologické — v jiném pořadí, než tomu obvykle bývá v mluvnicích nebo jazykovědných příručkách. Někdy je také třeba zařazovat i některá formální data explicitně, např. složenost některých tvarů slovesných, zvratnost apod. Kód nám rovněž umožňuje zachytit odchylky od spisovné normy, ať již v oblasti lexika, gramatiky, zejména morfologie, ale i výslovnosti.

2. Slovo analyzované retrográdně, zprava

Je obecně známo, že v indoevropských jazycích slova píšeme a čteme od levé strany. Tento fakt si celkem ani neuvědomujeme, dokud neobrátíme pozornost na [111]slovo z druhé strany, tj. zprava, a tergo. Je pochopitelně rozdíl, sledujeme-li slovo, lexém nebo slovní tvar, resp. různý tvar slova (při kvantitativní analýze). V dalším výkladu se pokusím naznačit, čím tento přístup může dokreslit, zpřesnit, doplnit naše poznání o jazyce a jeho jevech, vezmeme-li v úvahu i frekvenci lexému, ev. tvaru slova v textu, tedy retrográdní uspořádání slova v kombinaci s jeho frekvencí, popř. dalšími kvantitativními údaji.

2.1. Retrográdní uspořádání lexémů, různých slov přináší již tradičně informace o rozložení sufixů z hlediska tvoření slov, srov. příklad z RSSČ:

 

slovo

kód

frekvence

 

výroba

11

585

 

velkovýroba

11

12

 

malovýroba

11

8

 

prvovýroba

11

2

 

zásoba

11

45

 

osoba

11

164

 

orba

11

3

 

korba

11

1

 

tvorba

11

143

 

vrba

11

2

 

atd.

 

 

 

 

Na uvedeném příkladě ukážeme, co můžeme na základě slov uspořádaných a tergo a dat o jejich frekvenci zjistit např. pro češtinu. Jde především o slova (lexémy) končící na samohlásku -a. Z celkového počtu takových slov (na -a, popř. ), 3493, připadá na krátké -a 89 %, na dlouhé 11 % (jsou to zejména substantivizovaná adjektiva typu pokojská, odbíjená, vlastní jména osobní (ženská) typu Němcová, Molavcová, místní typu Jasenná, Lipá). — Dále je možno stanovit počet slov končících na digramy, z nichž poslední je monogram — -a, . Např. v češtině připadají z těchto slov 3 % na skupinu -ba, resp. na sufix -ba (koncové -a v něm není nikdy dlouhé).

Máme-li u každé jednotky, resp. u každého sufixu, ev. exempláře slova doloženu i (absolutní) frekvenci, jako je tomu v RSSČ, můžeme zjistit frekvenci příslušné jednotky v textu, při komunikaci.

Např. na sufix -ba připadá 8 % z textu vytvářeného jednotkami končícími na -a/-á-; N = 61 424 slov. Je to dáno tím, že se sufixem -ba tvoří jména dějová v širokém slova smyslu (z toho substantiva v 80 %, srov. prosba, setba, vazba, tvorba atd., Tvoření slov v češtině 2, 1967, s. 748—749). Některá konkrétní slova se sufixem -ba jsou v textu velmi frekventovaná, srov. výše výroba, osoba, tvorba apod. Významné postavení sufixu -ba v textu se potvrdí, srovnáme-li jeho frekvenci např. se sufixálním digramem -la/-lá. Připadají na něj asi 3 % slov systému, v textu se však vyskytuje poměrně zřídka, rovněž asi ve 3 %. Při podrobnější analýze slov se sufixem -la/-lá (na podobu s -lá, srov. celá, milá, připadají jen 3 %, tj. celkem zanedbatelný počet slov), zjistíme, že kromě příslovcí typu zpravidla (101×), zcela (247×), která jsou relativně častá, sem patří substantiva (v 91 %), z nichž výrazně vyšší frekvenci mají jen některá z nich, srov. síla (442×), zdomácnělé škola (369×), kontrola (164×). Ostatní slova na -la, domácí i přejatá, ev. cizí, mají v textu poměrně nízkou frekvenci, srov. skála (13×), pila (13×), magistrála (2×) apod. Naproti tomu např. slova na digramový sufix -va/-vá jsou v systému slovní zásoby doložena ve 12 %; počet různých slov s tímto sufixem roste podle očekávání přechylováním osobních jmen, srov. Dvořáčková, Vaníčková apod. Proto ovšem u tohoto sufixu převažují slova s dlouhým (v 65 %). Mezi slovy s krátkým -a převládají pak zejména frekventovaná jména dějová, popř. jména prostředků, srov. příklad z RSSČ:

[112]slovo

kód

frekvence

 

zábava

11

24

 

náprava

11

41

 

přeprava

11

18

 

příprava

11

208

 

oprava

11

94

 

doprava

11

82

 

autodoprava

11

1

 

souprava

11

37

 

úprava

11

172

 

průprava

11

6

 

Ačkoli tato slova zvyšují frekvenci sufixu -va/-vá v textu, přesto vzhledem k vyššímu počtu některých jednotek s nižší frekvencí, zejména u osobních jmen přechýlených, se tato frekvence zhruba shoduje s textovou frekvencí sufixu -ba, tj. asi 8 %.

Naproti tomu však např. sufix -ka/-ká je v systému slovní zásoby doložen relativně nejčastěji (v 31 %); při jeho vysoké polysémii (srov. Tvoření slov v češtině 2, s. 758—759) to ani nepřekvapuje. Na sufix s dlouhým připadají jen asi 3 % slov, např. substantivní adjektiva typu hostinská a vlastní jména žen typu Nebeská. Substantiva se sufixem -ka sama o sobě jsou většinou méně častá, jenom některá z nich jsou relativně frekventovaná, srov. otázka (526×), podmínka (520×), jednotka (298×), technika (232×), politika (152×) apod., a proto je jejich frekvence v textu nižší — asi 17 % — než např. u sufixu -na/-ná, na nějž připadá asi 28 %, tj. celého textu N. Tímto sufixem, opět relativně polysémním, se tvoří zejména dějová substantiva domácího původu, z nichž jednotlivé exempláře jsou poměrně frekventované, srov. strana (565×), cena (185×), odměna (119×), změna (320×) apod. Frekvence sufixu -na/-ná v systému slovní zásoby (17 %) je však podstatně nižší než např. u sufixu -ka/-ká, nejčastějšího v systému slovní zásoby (srov. RSSČ).

Z příkladů, které jsem tu uvedla jako ukázku, vyplývá, že při kombinaci retrográdního uspořádání slova s údajem o jeho frekvenci získáváme nové poznatky o jazyce, a to především z konfrontace počtu výskytů jevu v systému (tj. v podstatě počet různých sufixů, s nimiž se v daném souboru slova tvoří) a frekvence jevu v textu, tj. jak se opakují jednotlivá slova, resp. jejich sufixy v textu, při komunikaci. Ukazuje se tak „životnost“ jednotlivých sufixů, ev. modelů slov v textu.

Poměr mezi součtem frekvencí slov s daným sufixem v textu (Nt) a počtem výskytů různých slov utvořených daným sufixem (Vt) vyjadřuje index textotvornosti sufixu

tj. míra toho, jak se tenkterý sufix podílí na vytváření textu.

Např. pro sufixy, s nimiž jsme výše pracovali, nabývá index textotvornosti těchto hodnot:

-ba

43,3181

 

-ka/-ká

9,7281

 

-na/-ná

28,5716

 

-va/-vá

11,7730

 

Index textotvornosti naznačuje základní orientaci v dané problematice, která je složitá, jako je složité fungování jednotlivých jazykových jednotek v textu. Dominujícími faktory tu jsou jednak produktivita slova, resp. jeho sufixu v systému slovní zásoby, jednak častost jeho užití v textu a jejich vzájemná podmíněnost, která ovšem závisí i na jiných činitelích, např. na sémantice apod. (K této problematice srov. u J. Mistríka (1976, s. 40) poměr produktivnosti textové a slovníkové; k tomu též J. Horecký, 1964, s. 102.).

[113]Chápeme-li ve shodě s M. Dokulilem (1962, s. 78) produktivnost slovotvorného prostředku, formantu jako „schopnost tohoto formantu aktivně se účastnit vytváření nových slov“, ukazuje index textotvornosti slova poměr mezi produktivností sufixu, tj. systémové početnosti (Vt) a jeho užíváním v jazyku, v textu (Nt). Čím větší počet slov s týmž sufixem se vyskytuje v systému slovní zásoby a čím vyšší frekvenci v textu mají jednotlivá slova s tímto sufixem, tím významněji se tato slova podílejí na výstavbě textu. Naopak čím vyšší je počet slov utvořených s daným sufixem v systému slovní zásoby a jednotlivá slova s těmito sufixy se opakují méně, tím nižší je jejich podíl na vytváření textu, resp. tím nižší je hodnota jejich textotvorného indexu (srov. výše). Je ovšem samozřejmé, že uplatnění slova v textu závisí — mimo jiné — na aktuálnosti jeho významů spjatých s jeho slovotvorným utvářením apod. O významu dat o frekvenci sufixů v textu platí plně slova M. Dokulila, že „i jen aproximativní údaj o kvantitativním užití toho kterého slovotvorného způsobu a prostředku má pro celkovou charakteristiku daného jazyka obecně a pro charakteristiku jeho slovní zásoby zvláště význam prvořadý (Dokulil, 1962, s. 77).

Dosavadní výklad byl zaměřen na analýzu substantiv při retrográdním uspořádání v kombinaci s frekvencí i jinými kvantitativními daty. Další výklad opřeme o příklad slovesa v češtině. Po odepnutí koncového -t/i můžeme při retrográdním uspořádání zjistit např. rozložení kmenotvorných přípon, tj. rozložení sloves do šesti tříd podle kmene minulého.

Např. z 990 záporných sloves v RSSČ připadá na slovesa zvratná 19 %, na slovesa nezvratná 81 %. U těchto sloves jsou tyto první tři nejčastější kmenotvorné přípony: (1.) -a-/-á- 47 %, (2.) -i-/-í- 34 %, (3.) -e-/-ě- 11 %; z ostatních kmenotvorných přípon v češtině se tu vyskytuje nejčastěji kmenotvorná přípona -ou- (6 %). Přihlížíme-li k frekvenci jednotlivých kmenotvorných přípon v textu, převažuje kmenotvorná přípona -i- (resp. vzor prosit). S těmito i dalšími kvantitativními i kvalitativními daty můžeme pracovat při třídění sloves v mluvnicích i příručkách; např. systém cvičení je možno opřít o sílu a význam jednotlivých slovesných tříd.

Při retrográdním uspořádání slovesných lexémů ukazuje se i nový pohled na jejich levou stranu. Dostaneme např. přehled o tom, s kterými předponami se totéž základové sloveso spojuje, při uvádění frekvence možno říci, s kterými předponami se nejčastěji spojuje. Údaj o frekvenci diferencuje spojování s jednotlivými prefixy. Např. v češtině u frekventovaného slovesa dělat jsou to prefixy na-, pře-, pro-, u-, vy-, roz-. Frekvence v textu jasně ukazuje, že jen předpona u- (udělat) jednoznačně převládá (v 37 %); jde o dokonavou podobu k nedokonavému dělat. U ostatních předpon se frekvence pohybuje v intervalu 1—5 %. Rozdíly ve frekvenci těchto předpon lze vyložit jejich sémantikou, potřebou diferencovat (modifikovat) význam základového slovesa dalšími prefixy apod.

Přístup ke slovu při retrográdním uspořádání systému slov, tj. zprava, se v konfrontaci s přístupem zleva někdy hodnotí tak, že zprava, kdy jde v podstatě o systém sufixů, je slovo „mrtvé“, zleva, kdy jde o tvoření předponami (srov. výše), je slovo „živé“ (srov. Mistrík, 1976, s. 30n.). Rozdíl mezi pravou a levou stranou slova při retrográdním uspořádání slovního systému jasně existuje, ale právě zřetel k frekvenci jednotlivých slov ukazuje, že i pravá strana slova projevuje jistou „životnost“ (v tzv. textotvornosti), a proto bych označila pravou stranu slova jako spíše statickou, levou stranu jako dynamickou. Obě strany jsou ve vzájemném vztahu, který podmiňuje stupeň životnosti slova, která se projevuje v jeho textotvornosti. Je samozřejmé, že tu má důležitou úlohu i význam slova, který se v textu, resp. kontextu formuje.

2.2. Retrográdní uspořádání tvarů slov, resp. různých tvarů slov přináší nové informace o koncovkách jména a slovesa, o morfologických kategoriích, a to jednotlivě i v jejich kombinacích, „souhře“ v textu, v komunikaci.

[114]Při retrográdním uspořádání tvarů jména, např. substantiv, dostanou se k sobě různé tvary téhož slova, popř. tvary různých slov.

U substantiva vojsko jsou to např. tvary vojska jako: (1.) gen. sg. s frekvencí (fr.) 7, (2.) nom. pl. s fr. 9, (3.) ak. pl. s fr. 2; tvar (v) díle může být určen: (1.) lok. sg. subst. mask. než. díl s fr. 2, (2.) lok. sg. subst. neutr. dílo s fr. 15; apod.

Při vysoké homonymii (vlastní i nevlastní, srov. Těšitelová, 1966, s. 11n., 14n.) se dají jednotlivé tvary dobře diferencovat kódem (srov. RSSČ); jednoznačně se tak rozliší tvary jména, ev. shodné tvary různých jmen (srov. výše). Frekvence tvarů pak potvrzuje mé dřívější zjištění na základě materiálu o menším rozsahu (Těšitelová, 1966, s. 89), že mezi homonymními tvary (zvl. při homonymii nevlastní, tj. v rámci různých slov) existují výrazné rozdíly ve frekvenci (srov. i uvedený příklad).

Retrográdní uspořádání slovesných tvarů ukazuje dobře mimo jiné omezený počet jejich koncovek, monogramových i digramových, v textu.

Z 21 slovesných koncovek, monogramových a digramových, srov. -la, -na, , -íc, -me, -te, -i, -li atd., celkem 15 (71 %) končí na samohlásku, zbytek (6) na souhlásku (c, l, m, n, š, t) v 29 %.

Relace mezi jednotlivými koncovkami jména i slovesa můžeme kvantifikovat jednak v rámci systému koncovek jmenných (zejména u substantiv a adjektiv, která se zvláště vyznačují vysokou homonymií), jednak v rámci textu jako kumulativní frekvence tvarů doložených v textu. Ve vztahu k ostatnímu kontextu lze tak v novém aspektu vyčíslit a nově zhodnotit podíl homonymních tvarů na ekonomii textu bez narušení jednoznačné informace.

Uvedených zjištění možno využít zejména k prohloubenému studiu formální morfologie. Nejde jen o stanovení repertoáru koncovek, kmenů, ev. celých tvarů, ale i o jejich kvantifikaci v textu. Ta má těsný vztah i k jejich syntaktické funkci, resp. k sémantickým komponentům jednotlivých syntaktických funkcí, které ve větě zastávají. Potvrzuje se těsná závislost mezi morfologickými tvary jména a slovesa (resp. i jejich kategoriemi) a jejich syntaktickou funkcí.[2] Různé tvary slova retrográdně uspořádané a jednoznačně určené vzhledem k morfologickým kategoriím a kvantifikované vzhledem k pozici v textu znamenají tedy nepřímo i přínos ke studiu syntaxe v širokém slova smyslu. Např. genitiv bývá zpravidla atributem neshodným, nominativ subjektem, akuzativ objektem, lokál příslovečným určením apod. Při uspořádání slovních tvarů podle jejich pravé strany dostává se tak — jak zřejmo — do nového světla informace, jejímž nositelem jsou koncovky jména a slovesa.

Retrográdně uspořádané různé tvary slov (srov. RSSČ) připouštějí orientovat se v něm na základě přístupu pravděpodobnostního, probabilistního. (Je to i metodologické novum RSSČ.) K tomu účelu možno efektivně využít i frekvenci morfologických kategorií jména a slovesa. Např. u substantiv v češtině je to na prvním místě frekvence pádu, dále čísla a rodu.

Pro češtinu bylo např. zjištěno (Těšitelová, 1980), že v singuláru i plurálu bez zřetele k rodu mají relativně nejvyšší frekvenci tyto pády: (1.) gen., (2.) nom., (3.) akuz., (4.) lok. Frekvence v sg. a pl. je v poměru 3 : 1. Pokud přihlížíme k rodu, pak u maskulina životného má v sg. relativně nejvyšší frekvenci (1.) nom., (2.) gen., ostatní pády srov. výše. V pl. zůstává pořadí prvních čtyř nejčastějších pádů nezměněno. Totéž platí i pro feminina a neutra.

[115]U adjektiv se probabilistní princip opírá především o frekvenci kategorie jmenného rodu, dále pak pádu, ev. čísla.

V češtině rozlišujeme u adjektiv toto pořadí jmenného rodu: (1.) maskulina, (2.) feminina, (3.) neutra. V závislosti na rodu nacházíme u adjektiv tyto nejčastější pády: (1.) nom., (2.) gen., (3.) akuz.: bez zřetele k rodu jde o pořadí (1.) gen., (2.) nom., (3.) akuz. Tvary singulárové a plurálové u adjektiv v češtině nacházíme v poměru 65 : 35.

Pokud jde o frekvenci slovesných kategorií, probabilistní přístup předpokládá východisko (1.) od frekvence osoby a čísla, (2.) slovesného způsobu (modu) a času. Jednotlivé kategorie je nutno — jak zřejmo — kombinovat:

Pro češtinu platí toto pořadí slovesných kategorií: (1.) 3. os. sg., ev. pl., (2.) 1. os. pl., ev. sg. Z kategorií slovesného způsobu a času jsou nejčastější (1.) ind. préz., (2.) ind. prét., (3.) kond. préz. Zřetel k slovesnému rodu je z hlediska probabilistního zanedbatelný, jednoznačně převládá aktivum.

3. Frekvenčně retrográdní uspořádání jazykového materiálu v teorii a praxi

Ve své stati jsem se až dosud pokusila ukázat, které možnosti pro studium jazyka přináší spojení principu frekvenčního s abecedním retrográdním uspořádáním jazykového materiálu a jak s pomocí moderní výpočetní techniky vzniká nový typ slovníku — frekvenční retrográdní slovník. Svůj výklad jsem opřela o nový český frekvenční retrográdní slovník (Těšitelová - Petr - Králík, v tisku), který obsahuje velké bohatství materiálu a dat, které bude možno dále využít a zpracovávat.

Z uvedených příkladů se to — jak zřejmo — týká především lingvistiky, a to v oblasti lexika a gramatiky. Frekvenční retrográdní slovník lexikálních jednotek (lexémů) vytváří předpoklady k prohloubenému studiu i — kvantitativnímu — slovní zásoby v rámci slov plnovýznamových i gramatických (i z aspektu typologického), zvláště z hlediska slovotvorného (srov. výše); umožní to především nový pohled na produktivnost sufixů na základě systému slov zjištěného analýzou textu i na textotvornou úlohu sufixů, popř. jednotlivých jejich typů, skupin v textu, a to i vzhledem k různým funkčním stylům apod. — Co se týče gramatiky, z našeho výkladu vyplynulo, že frekvenční retrográdní slovník má základní význam pro formální morfologii, např. frekvenční retrográdní slovník různých tvarů slov, jména a slovesa. Tím, že zachycuje i frekvenci jednotlivých, resp. různých tvarů, morfologických kategorií v textu (dosud většinou uváděná základní podoba slovníková (např. nom. sg. u substantiva apod.) do značné míry stírá rozdíly ve frekvenci jednotlivých tvarů, resp. morfologických kategorií), postihuje nejen „funkční zatížení“ jednotlivých koncovek, což je důležité zejména pro jazyky flektivní, jakým je čeština, ale i jejich úlohu v textu. Vzhledem k vázanosti jednotlivých syntaktických funkcí na druh slova i jeho morfologické kategorie poskytuje retrográdní slovník různých tvarů jména a slovesa nová data i pro studium syntaxe, a to i z hlediska sémantiky v rámci věty, ale i pro studium vyšších jednotek, textu.

Pro strojovou lingvistiku přináší frekvenční retrográdní slovník sám o sobě obohacení po stránce metodologické; bylo třeba řadou speciálních programů řešit problematiku automatického zpracovávání dat týkajících se frekvence slova i problematiky abecedního retrográdního řazení českých slov. Bylo nutno vyrovnat se např. s bohatým repertoárem diakritických znamének v češtině apod. (srov. RSSČ, v tisku). Racionální sestavení koncovek i „kmenů“ znamená přínos, resp. cenný materiál pro strojový překlad. Lze říci, že frekvenční retrográdní slovník jako celek přispívá k řešení závažné problematiky matematické a strojové lingvistiky — tj. komunikace člověk — stroj.

[116]Frekvenční retrográdní slovník má všechny předpoklady, aby znamenal přínos pro jazykové vyučování, resp. ke zlepšení vyučování jazyku mateřskému. Např. data týkající se slovní zásoby umožňují přistoupit ke slovníku diferencovaně, opřít se o objektivní základ. Týká se to (1.) výběru slovní zásoby při tvorbě učebnic mateřského jazyka, a to ve výchozích textech a cvičeních; (2.) sestavování čítanek, zvl. poznámek k textu, tj. jak posoudit, resp. změřit slovní zásobu zvolených textů apod.; (3.) posouzení výkladů v učebnicích odborných předmětů, pokud jde o počet termínů, cizích slov, jejich využití apod. Také kvantitativních charakteristik gramatických jevů, kategorií, zejména frekvenčního retrográdního slovníku různých tvarů slov, lze s prospěchem využít k jazykovému vyučování, zvl. jazyku mateřskému. Na základě frekvence jazykových kategorií a jejich vztahů při tvoření tvarů, syntaktických struktur apod. můžeme hierarchizovat (podle frekvence, ale i ovšem podle důležitosti) význam jednotlivých jazykových jevů pro vyučování, řídit jejich výběr a odstupňovat jejich nácvik ve cvičeních. (Týká se to pochopitelně i jevů pravopisných, vázaných zejména na jevy gramatické.)

V rámci technických aplikací jde na prvním místě např. o informatiku, která se může opřít o data frekvenčního retrográdního slovníku při odhadování délky „klíčových“ slov, při automatickém dělení slov (s využitím např. frekvence různých tvarů slov) apod. — Nová data může získat i náš polygrafický průmysl pro vybavení zásobníků písmen zjištěním frekvence písmen na základě jejich frekvence v textu (nikoli podle frekvence písmen jen v systému slovní zásoby). V neposlední řadě může frekvenční retrográdní slovník posloužit např. k sestavování klávesnic psacích strojů, klasických i automatických, i k analogickým technickým aplikacím opírajícím se o jazykový materiál.

4. Závěr

Kombinací principu frekvenčního a abecedního při retrográdním řazení jazykových jednotek vzniká nový typ slovníku — frekvenční retrográdní slovník. Retrográdní abecední řazení zprava se tu doplňuje o údaje (1.) kvantitativní, (2.) kvalitativní (se zřetelem ke gramatickým kategoriím).

Při retrográdním uspořádání (1.) slovníku, systému slovní zásoby, různých lexémů (zejména zjištěných na základě analýzy textu) získáváme nový materiál pro studium tvoření slov, zvláště produktivity sufixů, slovotvorných modelů i jednotlivých slov v současném jazyce při komunikaci. Zjištěním frekvence slov na základě analýzy textu postihuje se textotvornost sufixů, slovotvorných modelů i jednotlivých slov.[3] Pravá a levá strana slova při konfrontaci principu retrográdního řazení a principu frekvenčního svědčí o „životnosti“ slova, jeho textotvornosti, kterou lze vyjádřit indexem textotvornosti. Pravá strana slová má charakter spíše statický, levá strana dynamický.

Při retrográdním uspořádání (2.) slovníku různých tvarů slov, jména a slovesa, dostáváme hlubší vhled do distribuce jevů formální morfologie, koncovek, morfologických kategorií i celých tvarů slov. Zřetel k frekvenci (resp. uváděním frekvence) ukazuje pozici tvaru slova v textu, a to i vzhledem k jeho syntaktické funkci.

Kombinací principu abecedního řazení retrográdního s principem frekvenčním při studiu jevů lexikálních i gramatických i dalších (slovotvorných) vnikáme hlouběji do dynamiky současného jazyka při komunikaci. Obohacuje se tím nejen jazyková teorie, ale i praxe, při jazykovém vyučování, při komunikaci člověk — stroj, v technice apod.

 

[117]LITERATURA

 

DOKULIL, M.: Tvoření slov v češtině 1. Teorie odvozování slov. Praha 1962.

FILOZOFICKÝ SLOVNÍK. Praha 1976.

FREKVENČNÍ SLOVNÍK ČEŠTINY VĚCNÉHO STYLU. Ed. M. Těšitelová a kol. Praha 1983. Interní tisk Ústavu pro jazyk český ČSAV.

HORECKÝ, J.: Morfematická štruktúra slovenčiny. Bratislava 1964.

JELÍNEK, J. - BEČKA, J. V. - TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

MATER, E.: Rückläufiges Wörterbuch der deutschen Gegenwartssprache. Leipzig 1965. 2. vyd. 1970.

MISTRÍK, J.: Frekvencia slov v slovenčine. Bratislava 1969.

MISTRÍK, J.: Retrográdny slovník slovenčiny. Bratislava 1976.

SLAVÍČKOVÁ, E.: Retrográdní morfematický slovník češtiny. Praha 1975.

ŠACHOVSKAJA, L. D.: Slovar’ rifm russkogo jazyka. Moskva 1890.

TĚŠITELOVÁ, M.: O morfologické homonymii v češtině. Rozpr. ČSAV, 76. Praha 1966.

TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha 1974.

TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Lingvistické příručky. UK. Praha 1977.

TĚŠITELOVÁ, M.: Využití statistických metod v gramatice. Praha 1980.

TĚŠITELOVÁ, M.: K analýze jazykových jednotek z hlediska zákonů a kategorií dialektiky. In: Sb. z konference o marxistické jazykovědě ve Smolenicích 1983. V tisku.

TĚŠITELOVÁ, M. - PETR, J. - KRÁLÍK, J.: Retrográdní slovník současné češtiny. V tisku.

THORNDIKE, E. L.: The teacher’s word book. New York 1921.

THORNDIKE, E. L.: A teacher’s word book of twenty thousands words. New York 1931—1932.

TVOŘENÍ SLOV V ČEŠTINĚ 2. Praha 1967.

WALKER, J.: The rhyming dictionary of the English language. Revised and enlarged by L. H. Dawson. 1775.

 

R É S U M É

On the use of statistical methods in relation to the reverse arrangement of linguistic units

Through the combination of the frequency and the alphabetical ordering applied on the reverse arrangement of linguistic units a new type of dictionary has been produced — a reverse frequency dictionary. Here, the reverse-alphabetized arrangement is complemented by new data of both (1.) quantitative and (2.) qualitative character.

The reverse arrangement of (1.) the dictionary of the lexicon, i. e. different lexemes (especially those obtained from the text analysis), yields a new linguistic material for the study of word-formation, of the productivity of suffixes, for that of word-formative models and of single words occurring in the present-day communication. The frequency of words based on a text analysis reflects the text-formative capacity of different types of word-formative elements and of the whole lexical units. With the combined reverse-alphabetized and frequency-based arrangement both the right and the left sides of lexical units give evidence of the „vitality“ of words, i. e. of their text-formative capacity which can be expressed by the index

The right side of word is rather of a static character, the left side indicates its dynamics.

The reverse arrangement (2.) of the dictionary of different word forms of nouns and verbs offers a deeper insight into the distribution of events of formal morphology, i. e. of endings, [118]morphological categories and whole word forms. The quantitative data show the frequency position of the word form in text pointing, at the same time, to its syntactic function.

The combination of the reverse-alphabetized arrangement with the frequency data in the study of lexikal, grammatical, and other (e. g. word-formative) events makes possible a more complex penetration into the dynamics of language. The data are of significance not only from the viewpoint of linguistic theory, but they also find an application e. g. in language teaching, in the computational linguistics (e. g. in the man - machine communication) and in the computational technology in general.


[1] Je to první práce v naší lingvistické literatuře, jejíž rukopis (kromě úvodu) byl odevzdán do nakladatelství Academia na magnetické pásce. Samočinný počítač v tiskárně automaticky připraví text na pásce uložený k rozmnožení fotografickou cestou.

[2] V úseku matematické lingvistiky Ústavu pro jazyk český ČSAV se na základě materiálu věcného stylu připravuje v současné době Sémantický frekvenční slovník. Při práci na něm se vychází ze syntaktických funkcí analyzovaných slov a provádí se sémantická analýza na úrovni věty. Vyhledávají se významové komponenty korespondující s větnými členy, jejich lexikální obsazení i ve vztahu k morfologickým kategoriím. Srov. připravovaný sv. Prague Studies in Mathematical Linguistics 9.

[3] Retrográdního uspořádání tvarů slov se již dávno využívalo k sestavování tzv. rýmovníků; srov. Walker - Dawson, 1775; Šachovskaja, 1890; aj.

Slovo a slovesnost, ročník 46 (1985), číslo 2, s. 109-118

Předchozí Ján Horecký: Systém verbálneho správania

Následující Helena Lehečková: Jazykové aspekty typologie afázií