Časopis Slovo a slovesnost
en cz

Nad bibliografií kvantitativní lingvistiky za léta 1962—1982

Marie Těšitelová

[Rozhledy]

(pdf)

Над библиографией квантитативной лингвистики за годы 1962—1982 / Some thoughts over the bibliography of quantitative linguistics 1962—1982

Do úkolů oddělení matematické a aplikované lingvistiky, které bylo r. 1961 založeno v Ústavu pro jazyk český ČSAV, bylo přijato v rámci jeho mezinárodního postavení i pořizování anotované bibliografie kvantitativní lingvistiky (srov. seminář matematické lingvistiky v Bukurešti 1963; Ludvíková, 1964). Bylo to v období, kdy nejen u nás, ale i v celém světě s velkým rozmachem nastupují tzv. nové metody v lingvistice (srov. sovětský sborník O točnych metodach issledovanija jazyka (O tak nazyvajemoj „matematičeskoj lingvistike“), Achmanová a kol., 1961). V lingvistice se klade důraz na uplatňování exaktních, zejména matematických a logických metod, ukazují se možnosti využít tu samočinných počítačů apod. Podobné úsilí nacházíme v této době i v jiných společenských vědách. Znamená to obdobný obrat ve vědách, jako bylo uplatňování vědecky pojaté srovnávací metody koncem 18. stol. (Petr, 1982). V lingvistice samé bylo takovou převratnou metodou v 30. letech tohoto století systémové pojímání jazyka a funkční pohled na něj.

V 60. letech se zejména kladou základy algebraické lingvistiky a strojového překladu a na širší bázi se staví i využití statistických metod v lingvistice, resp. kvantitativní lingvistika. Ta ovšem měla na co navazovat, srov. u nás bezprostředně např. Trnka (1951), Jelínek - Bečka - Těšitelová (1961), již začátkem století Mathesius (1911) aj. Od 60. let se tak konstituuje nová lingvistická disciplína — matematická lingvistika, která se skládá — zejména u nás — ze dvou relativně samostatných složek, algebraické lingvistiky a kvantitativní lingvistiky. Od ostatních lingvistických disciplín se diferencuje metodologicky, má samostatné metody a postupy: opírá se o aparát moderní logiky a matematiky, základy teorie množin, teorie automatů, o teorii grafů, statistiku, počet pravděpodobnosti, matematickou statistiku, teorii informace apod. Vedle matematické lingvistiky se od 60. let formují, popř. na starších základech nově konstituují interdisciplíny, jako jsou psycholingvistika a sociolingvistika, které soustavně zkoumají psychickou a společenskou podmíněnost vzniku a fungování jazykových jevů (v bibliografii byly tyto interdisciplíny vzhledem k jazykovému materiálu a některým metodám jeho zpracování volně přiřazeny ke kvantitativní lingvistice, zvláště pokud se v nich alespoň částečně uplatňují zejména statistické metody při zkoumání jazykových jevů, srov. dále).

Anotovaná bibliografie kvantitativní lingvistiky za léta 1962—1982, nad níž se v tomto příspěvku zamýšlíme, vycházela od r. 1964 pod názvem Kvantitativní lingvistika 1962 (dále Kvantitativní lingvistika 1963, … 1964, … 1981—1982); svazky za léta 1962—1971 vydala Státní knihovna ČSR v rámci bibliografie Novinky literatury — jazykověda — literární věda, Společenské vědy — Řada VI; poslední číslo tu vyšlo v r. 1972. V letech 1973—1978 byla práce na bibliografii z technických důvodu sice přerušena, ale ve sběru záznamů se při práci oddělení matematické lingvistiky ÚJČ ČSAV pokračovalo. Od r. 1979 mohla bibliografie opět začít oficiálně vycházet, ovšem (nebo alespoň) jako rozmnožený interní tisk Ústavu pro jazyk český ČSAV. Bibliografie za léta 1972—1973 vyšla r. 1979, potom se v ní již systematicky pokračovalo; v r. 1985 byl rozmnožen poslední svazek bibliografie za léta 1981—1982. Na [232]vypracovávání bibliografie se autorsky podíleli především pracovníci oddělení matematické lingvistiky, podle potřeby, zejména v 60. letech, i širší okruh spolupracovníků. V posledním období, resp. po r. 1979 pracoval autorský kolektiv v tomto složení: H. Confortiová, J. Králík, M. Ludvíková, I. Nebeská, M. Těšitelová a L. Uhlířová; od r. 1964 do r. 1985 bibliografii redigovala M. Těšitelová, M. Ludvíková zastávala funkci interní výkonné redaktorky.

Od samého začátku jde o bibliografii anotovanou, která přinášela informace o vědecké produkci v oblasti kvantitativní lingvistiky, a to nejen naší, ale i celosvětové. I když jistě nelze vzhledem k potřebné literatuře ve všech jazycích světa zajistit úplnost tak náročně pojaté bibliografie, v daných podmínkách ji možno označit jako maximálně dosažitelnou. Aby se zlepšila informovanost světové veřejnosti o našich pracích z oblasti kvantitativní lingvistiky, které vyšly česky nebo slovensky, bylo v bibliografii od r. 1965 do r. 1971 k českému znění anotace o těchto pracích připojováno i znění anglické. — A tak zamyšlení nad bibliografií kvantitativní lingvistiky za léta 1962—1982 je zároveň i zamyšlením nad vývojem naší kvantitativní lingvistiky v tomto období v rámci vývoje kvantitativní lingvistiky v měřítku světovém.

Od r. 1964 do r. 1985 přinesla bibliografie kvantitativní lingvistiky celkem 3140 záznamů, na rok tedy připadá průměrně asi 150 záznamů, v praxi přirozeně s větším nebo menším kolísáním kolem této hodnoty. Záznamy týkající se jen původních prací, časopiseckých a knižních, byly rozřazeny v prvním desetiletí trvání bibliografie do osmi tematických oddílů (uvnitř oddílů jsou záznamy seřazeny abecedně podle příjmení autorů): teoretické a metodologické předpoklady kvantitativní lingvistiky (odd. 1—3), vlastní kvantitativní lingvistika, tj. její realizace na rovině fonologické a grafematické (odd. 4), gramatické (odd. 5), lexikální a sémantické (odd. 6), stylistické (odd. 7), v oblasti dějin jazyka a typologie (odd. 8), psycholingvistika, sociolingvistika a jazykové vyučování (odd. 9), aplikovaná a strojová lingvistika (odd. 10). V druhém desetiletí vycházení bibliografie byl ve shodě se směrem vývoje kvantitativní lingvistiky položen důraz na její jádro, tj. na oddíly 4—8; byly spojeny oddíly 1—3 (srov. dále), interdisciplíny, tj. psycholingvistika a sociolingvistika, které se zatím celkem úplně osamostatnily, byly do bibliografie později zařazovány opravdu jen v případech, které mohou být do jisté míry i příspěvkem ke kvantitativnímu studiu jazyka. Také aplikace výsledků kvantitativní lingvistiky, zejména na jazykové vyučování, znamenají samostatnou problematiku a byly do bibliografie zařazovány s výběrem (srov. výše).

Pokud jde o teoretické a metodologické problémy kvantitativní lingvistiky, období 60. let bylo ve znamení aplikace především metod teorie informace, kybernetiky i teorie modelování. Shannonova metoda (1951), zvláště pak pojmy entropie a redundance byly aplikovány zejména na rovinu fonologickou a grafematickou, ale i v oblasti stylistiky a poezie i jinde, jak dále ještě ukážeme. Protože se mnohé z těchto pojmů ukázaly málo nosné pro aplikaci v kvantitativní lingvistice, resp. na jazykové jevy vůbec, pokud jde o přínos pro poznání jazyka, jeho jednotek vyšších než foném nebo grafém, ev. slovo, začalo se od 70. let — a platí to celkem podnes — věnovat více pozornosti matematické statistice, počtu pravděpodobnosti apod. Studuje se rozložení jazykových jednotek v textu i v systému. Stále se vrací „klasická“ formule Zipfova (1935) o vztahu ranku slova (při uspořádání podle klesající frekvence) a jeho frekvence. Propracovávají se základní metodologické otázky kvantitativní lingvistiky, jakými jsou výběr a homogennost souborů (zejména co do rozsahu), aby výsledek měl potřebnou přesnost apod. Řeší se problematika frekvenčních seznamů jazykových jednotek, hledají se vhodné testy k hodnocení zjištěných statistických dat apod. Uvažuje se o matematických metodách, které vedou, ev. mohou vést k odhalení zákonitostí ve fungování jazykových jevů. Také v této oblasti se naše kvantitativní lingvistika významně uplatnila.

[233]Tento metodologický „kvas“ se různě obráží na vývoji studia jednotlivých jazykových rovin v kvantitativní lingvistice od 60. let. Souvisí to i s tím, že kvantitativní lingvistika — i naše — v tomto období měla půdu v některých oblastech již do jisté míry připravenou, ba i propracovanou. Platí to zejména pro rovinu (1.) fonologickou a grafematickou a (2.) lexikální a sémantickou.

1. Fonologie a grafematika. Kvantitativní lingvistika v této oblasti navázala na práce z dřívějších let (srov. výše), na práce pražských lingvistů B. Trnky, J. Vachka a J. Krámského, zvl. z období 1950—1960; jde zejména o frekvence fonémů v angličtině a v češtině.

1.1. V 60. letech se pak zjišťuje frekvence fonémů v češtině, ale i v jiných jazycích, v bulharštině, rumunštině, švédštině aj., většinou na širší bázi. Ke zhodnocení výsledků těchto výzkumů se aplikují Shannonovy vzorce entropie a redundance, v češtině, ruštině, v němčině, v lotyštině, ale i v hindštině aj. Výsledky zjištěné pro různé jazyky se porovnávají. Metoda Shannonova, uplatňovaná do značné míry jednotně, toto srovnávání umožňovala. Spolu s frekvencí fonémů se ve většině jazyků zjišťovala i frekvence grafémů, ev. naopak. Frekvence fonémů a grafémů se navzájem porovnávaly, a to jak v jednotlivých jazycích (v češtině, v slovenštině, ve francouzštitině, v rumunštině, v japonštině aj.), tak i mezi různými jazyky navzájem, příbuznými i nepříbuznými, např. v němčině, angličtině a francouzštině apod.

1.2. V druhé polovině 60. let se studovaly již vztahy mezi fonémy a grafémy, jejich kombinatorika (např. pro češtinu a slovenštinu), a to i podle pozice fonémů/grafémů ve slově, např. na počátku a na konci slova.

Pozornost byla věnována i jednotce vyšší, než je foném, a to zejména slabice (s pokusem o její nové vymezení); počítá se opět její entropie, zjišťuje se její délka, provádí se tzv. fonologická analýza slabiky, např. v angličtině, němčině, francouzštině a španělštině. Studují se složení jednoslabičných slov, resp. různé typy slabik, rozložení slabik, jak ukazují např. práce v češtině.

1.3. V 70. letech se ve fonologické statistice propracovávají jednak speciální vztahy fonémů, ev. grafémů, např. relativní četnosti labiál a velárních frikativ v jazycích evropských a asijských, rozložení fonémů podle pozice ve slově, zejména na počátku a na konci slova; zjišťuje se poměr vokálů a konsonantů v inventáři fonémů různých jazyků, poměr konsonant — vokál při stavbě morfémů apod.

Můžeme tedy konstatovat, jak ukazuje bibliografie kvantitativní lingvistiky, že se ve statistice fonémů a grafémů postupuje od zjištění frekvence jednotlivých jednotek a jejich vzájemných vztahů k zjišťování frekvence vyšších jednotek, slabik, morfémů, slov, ev. k distribuci uvedených jednotek v textu apod.

2. Slovní zásoba. Sémantika. Druhou oblastí v kvantitativní lingvistice, která se již v 60. letech vyznačovala závažnými výsledky z doby předcházející, dokonce od začátku tohoto století, je především oblast slovní zásoby. Ve vývoji této oblasti kvantitativní lingvistiky můžeme od let 60. do začátku let 80. — na základě bibliografie — rozlišit zhruba tři etapy:

2.1. V 60. letech se především doplňují frekvenční slovníky; k frekvenčnímu slovníku češtiny FSČ (srov. výše) — byl to první frekvenční slovník slovanského jazyka, který vznikl na domácí půdě — přibývá v časovém sledu např. frekvenční slovník elementární francouzštiny, frekvenční slovník španělštiny, rumunštiny, mluvené angličtiny, frekvenční slovník americké angličtiny, frekvenční slovník slovenštiny aj. Vedle toho vznikají dílčí frekvenční slovníky, resp. frekvenční seznamy na základě analýzy textů odborného stylu se speciální tematikou. Práce tohoto druhu nacházíme zejména v Sovětském svazu; týkají se speciálních textů, např. z oboru stavebních hmot, elektrotechniky, výpočetní techniky apod.

[234]Vedle toho se v lexikální statistice začínají soustavně studovat zákonitosti v slovní zásobě. Analyzují se vztahy mezi frekvencí slova a jeho rankem, ev. pořadím. Znovu se tedy zkoumá tzv. Zipfův zákon (srov. výše) a různě se modifikuje. Studuje se např. poměr type/token, tj. poměr lexikálních jednotek, lexémů, k opakovanému výskytu slov, exemplářů (Herdan, 1960). K empirickému rozložení slov se hledají rozložení teoretická. Věnuje se pozornost tzv. disponibilitě slova ve slovníku, „spojitosti“ slovníku z hlediska statistického, zájem opět upoutává jazyková ekonomie, tzv. bohatství slovníku (v různých pojetích) apod. Všechny tyto problémy se řeší v nejrůznějších jazycích, počítaje v to přirozeně i češtinu, kde jsou některé z uvedených problémů zpracovány i monograficky.

2.2. V 70. letech se začíná věnovat zvláštní pozornost frekvenci slov v mluvených projevech, např. v ruštině, angličtině, ale i v češtině. Porovnávají se výsledky studia frekvence slov v různých jazycích, např. v němčině, angličtině a v skandinávských jazycích. Studuje se rozložení různých druhů slov (např. v polštině, srov. již dříve v češtině) v různých frekvenčních seznamech, např. v ruštině apod. V různých jazycích se obrací větší pozornost ke studiu původu slov: studují se např. slova latinského původu v rumunštině, frekvence slov přejatých z angličtiny do jazyka švédské žurnalistiky, status arabsko-perských výpůjček v turečtině apod. Zjišťuje se frekvence nejen jednotlivých slov, ale i celých jejich skupin, např. frekvence sloves a slovesných skupin, frekvence několikaslovních spojení, např. v ruštině, frekvence frazeologismů, např. ve švédštině, typy víceslovních termínů, např. v ruštině a v angličtině. Soustavněji se začíná sledovat i rozvíjení slovní zásoby zejména odvozováním slov, a to tak, že se sleduje frekvence a do značné míry i produktivnost některých sufixů, např. sufixu -tel ve slovanských jazycích, způsob tvoření podstatných jmen slovesných s nulovým sufixem v současném ukrajinském jazyce apod. Pozornost se věnuje i frekvenci morfémů (např. v češtině, ve slovenštině aj.). Objevují se studie věnované kvantifikaci lexikálních významů, např. v ruštině a ukrajinštině, v češtině se kladou základy k sémantickému frekvenčnímu slovníku na bázi kontextového významu.

Je ovšem samozřejmé, že mnohá problematika vyskytující se v lexikální statistice 60. let přesahuje do let pozdějších. Tak se např. dále rozšiřuje řada frekvenčních slovníků, zejména těch, které vznikají už s pomocí moderní výpočetní techniky, a to s pomocí buď částečnou, nebo úplnou. Do tohoto období patří např. frekvenční slovník italštiny, pokračování frekvenčního slovníku polštiny (část vzniklá na základě lexikální analýzy textů publicistických a část na základě analýzy textů populárněvědných) a frekvenční slovník ruštiny. Dále pokračovalo také studium tzv. bohatství slovníku, problematika slov málo nebo méně frekventovaných. Řeší se i nové obecné otázky lexikální statistiky, jakými jsou např. výběr jednotky souboru, typy výběrů, rozsah korpusu apod. K pojetí těchto otázek zásadního významu pro kvantitativní lingvistiku ve značné míře přispěly právě práce o českém jazyce; řešily je i z obecného hlediska a naznačují metody zkoumání lexikálních jevů — ale nejen jich (srov. dále) — v jiných jazycích, především ovšem slovanských.

2.3. V 80. letech (přesněji na začátku těchto let) vznikají v oblasti lexikální statistiky naší i světové jednak práce, které se zabývají dílčími problémy, jako tomu bylo v letech předcházejících, jednak práce, které možno označit jako práce syntetické, resp. syntetizující.

2.3.1. Z dílčích problémů, které tu byly řešeny, zaslouží zmínky tvoření adverbií, např. v ruštině a slovenštině, distribuční analýza vybraných druhů slov, např. v ruštině, analýza frekventovaných slov vzhledem k jejich původu, např. ve francouzštině, apod. Prohlubuje se i studium slovotvorného obohacování slovní zásoby z hlediska kvantitativního: složená slova, např. v ruštině, dialektismy, např. v slovníku ruštiny a gruzínštiny, složeniny-neologismy, např. v angličtině, apod. Začíná se [235]prohlubovat i studium sémantiky, srov. např. v bulharštině studium sémantiky sloves znamenajících přemístění v prostoru, kvantifikace adverbií pravděpodobnostní (jistotní) modality a propracovávání problematiky kvantifikace v oblasti sémantiky v češtině (o sémantickém frekvenčním slovníku srov. výše) apod. Z nových frekvenčních slovníků jmenujme alespoň frekvenční slovník současné ukrajinské umělecké prózy.

2.3.2. V podstatě nové jsou práce syntetické, které se od řešení úkolů dílčích dostávají k řešení komplexnímu: především v české kvantitativní lingvistice se konfrontují výsledky kvantitativní analýzy na různých jazykových rovinách, uvádějí se do vztahu, takže se kvantifikuje užívání jazyka jako celku při komunikaci, v textu, v projevech psaných a mluvených. V české kvantitativní lingvistice vznikají na českém jazykovém materiále frekvenční slovníky jazyka významných funkčních stylů v současnosti, slovník současné české publicistiky, slovník současné odborné češtiny, frekvenční slovník současné české administrativy i frekvenční slovník jazyka věcného stylu a jejich rozbory, resp. charakteristiky fungování jejich slovní zásoby, v podstatě slovníku současné spisovné češtiny, ve vztahu k ostatním rovinám českého jazyka, zejména rovině morfologické a syntaktické (srov. Linguistica II, III, IV, VII, XV).

Oblast lexikální statistiky patří i v rámci bibliografie kvantitativní lingvistiky k stabilně nejvíce propracovávané oblasti. Připadá na ni průměrně 25 % veškeré produkce v kvantitativní lingvistice.

Druhou produkčně nejsilnější oblastí kvantitativní lingvistiky byla v 60.—80. letech — podle bibliografie kvantitativní lingvistiky — stylistika, k níž se ovšem počítá i poezie, resp. metrika, a problematika tzv. sporného autorství, v poslední době pak vše, co se označuje jako teorie textu.

3. Stylistika. V 60. a 70. letech se tato oblast ukazovala jako nejsilnější v rámci kvantitativní lingvistiky vůbec, a to právě proto, že se k ní přiřazovalo i kvantitativní studium poezie a řešení tzv. sporného autorství, které v obou případech prožívaly přímo mohutný vzestup ve srovnání s tím, co bylo o této problematice známo již dříve.

3.1. Styl se v kvantitativních pracích chápe jako souhrn kvantitativních charakteristik ve formální struktuře textu, a to charakteristik jak jazykových, tak žánrových, autorských a textových. Jako jedna z „nejstarších“ jazykových charakteristik stylu je délka věty. Časem přibývaly další jazykové charakteristiky stylu: zastoupení a rozložení slovních druhů, poměr slov různých (lexikálních jednotek) a slov (slovních tvarů), opět tzv. bohatství slovníku, index opakování slov, nominální a verbální skupiny slov, rozložení sloves (ev. jiných slovních druhů) v textu, frekvence modálních slov, hovorová slova ve spisovném slovníku; syntax věty jednoduché a souvětí, slovosled, aktuální členění, dílčí jevy, jako jsou pasívní a neosobní konstrukce, vedle jednotek fonologických, morfologických a slovotvorných. Tyto charakteristiky se studovaly jednotlivě i v jistých kombinacích vzhledem k funkčnímu stylu a stylu autora, k žánru apod., a to jak v našich jazycích, v češtině a slovenštině, tak i v ruštině, polštině, bulharštině, ale i v japonštině a jiných jazycích.

3.2. Z hlediska kvantitativního se u jazyka básnického studoval zejména verš a rytmus. U nás, v Sovětském svazu a v Polsku vznikla řada prací, které se pokoušely na tuto problematiku aplikovat pojmy teorie informace, zvláště pojem entropie; patří sem např. práce předčasně zemřelého J. Levého (1964) a řada jiných prací.

3.3. Řešení tzv. sporného autorství z hlediska kvantitativního se v 60. letech znovu obnovilo především v angličtině; šlo např. o autorství 10 dopisů z r. 1861 [236](připisovaných spisovateli M. Twainovi), o autorství tzv. Federalistických článků z let 1787—1788, týkajících se činnosti anglického parlamentu, v němčině autorství románu „Nachtwachen von Bonaventura“, v rumunštině románu Cîntarĕa Romînici apod. Znovu se objevuje problematika autorství Shakespearova, Goethova autorství některých recenzí, problém dokončení románu jiným autorem apod. Při řešení uvedených otázek se většinou užívá jazykových charakteristik zmíněných výše; vedle toho se věnuje pozornost i délce slova, srovnává se poměr slov plnovýznamových a slov formálních, relativně nejvíce frekventovaných a v textu „méně nápadných“, počet zájmen, odděleně různého typu, apod.

Problematika sporného autorství se nově řešila také v české kvantitativní lingvistice, zejména z hlediska metodologického. Na základě tzv. bohatství slovníku, koeficientu nominálnosti a koeficientu rozvíjení i jiných jazykových charakteristik obnovuje se problematika sporného autorství RKZ (Rukopisu královédvorského a Rukopisu zelenohorského). Tyto charakteristiky se zjišťovaly nejen na materiále RKZ, ale i na textech porovnávacích, jednak na pravých památkách staročeských (ze 13. a 14. stol.), jednak na textech obrozeneckých (z 19. stol.). Při výběru materiálu se respektovala délka textů i tematika básní. Výsledky kvantitativní analýzy ukázaly blízkost RKZ textům obrozeneckým.

3.4. Koncem let 70. a začátkem 80. let soustřeďuje se kvantitativní lingvistika na problematiku textu jako celku a výrazně ustupuje kvantifikace jevů speciálních pro poezii.

Pokud jde o studium textu z hlediska kvantitativního, vedle jazykových charakteristik stylu (srov. výše) věnuje se pozornost typům reference v dialogu a jeho popisu; jako funkčně sémantická kategorie se zkoumá tzv. spojitost textu, lexikálně-morfologická, morfologická a funkčně syntaktická (např. v ruštině, španělštině a v jiných jazycích), ale i terminologická struktura textu. Studuje se počet odstavců, průměrná délka odstavce, distribuce prostředků syntaktických, lexikálních a sémantických při kohezi textu, např. v češtině aj. Tematické jednotky se chápou jako segmenty textu a zjišťuje se jejich opakování; pozornost se věnuje např. metafoře, a to i z hlediska vývojového. Zjišťuje se počet slov v odstavci, ve větách, počet vět, počet souvětí v textu apod. Text se tedy chápe jako souvislý sled slov nebo vět majících integrální komunikativní sdělnost, informační hodnotu a zároveň statistickou kompozici. Z hlediska metodologického se jen zřídka vyskytují pojmy teorie informace, jako jsou entropie a redundance, které se podle mého názoru při studiu vyšších jazykových jednotek neosvědčily a přežívají někdy jen jako „prázdné“ pojmy termíny, srov. např. termíny příjemce, vysílátel apod.

Kvantitativní lingvistika v oblasti stylu dospěla, jak ukazuje bibliografie kvantitativní lingvistiky, od charakteristiky délky věty, ev. souvětí v kombinaci s řadou charakteristik na všech jazykových rovinách k sémantickému segmentu, k odstavci a k textu a jeho funkční stylové diferenciaci. Platí to v zásadě pro všechny jazyky, které se zabývají kvantitativní lingvistikou.

4. Gramatika. Tato oblast prošla od 60. let po dnešek v rámci kvantitativní lingvistiky největšími kvantitativními i kvalitativními změnami, a to pokud jde o morfologii (1.) i syntax (2.).

4.1. Morfologie. Začátkem 60. let se největší pozornost věnovala morfematické analýze, srov. v češtině i ve slovenštině, pokud zůstáváme v širokém rámci gramatickém. S tímto zřetelem je třeba hodnotit pozornost, která byla dále věnována slovním druhům (např. v češtině ve srovnání s francouzštinou, popř. s angličtinou). Postupně se začínala věnovat pozornost morfologickým kategoriím, především slovesným (např. užití času ve staré a nové francouzštině a v angličtině, slovesného rodu v současné angličtině, užívání pasíva v češtině a v angličtině, frekvence sloves[237]ných kategorií v češtině a v ruštině). Zejména v germánských a románských jazycích se kvantifikace soustřeďovala na slovesné tvary, ev. na některé jejich kategorie, jako je např. čas.

Z hlediska kvantitativního se dále věnovala pozornost i zájmenu a jeho kategoriím, kombinatorice různých druhů zájmen, např. v češtině, srbocharvátštině a v rumunštině, neurčitým zájmenům, např. v ruštině, zájmenu ve vztažné větě v angličtině, apod.

Středem zájmu kvantitativní lingvistiky v oblasti morfologie se dále stává substantivum a jeho kategorie. Také zde měla čeština jistý předstih ve FSČ, pokud jde o frekvenci zejména substantiva a jeho kategorií; pozdějšími výzkumy se tato problematika, zvláště v češtině, prohlubuje a propracovává. K stanovení jazykové normy se zjišťuje frekvence tvarů jména, pád jména i z hlediska vývoje, např. v ruštině, entropie pádového systému, např. v rumunštině, dále homonymie v češtině a v ruštině, v lotyštině aj.

Začátkem 80. let — zejména v češtině — v rámci morfologické oblasti kvantitativní lingvistiky dochází k syntetickému pojetí fungování slovních druhů, zvláště ohebných, jména a slovesa a jejich kategorií v textu. Ukazuje se jejich diferenciační úloha ve funkčním stylu: Jde jednak o frekvenci slovních druhů a jejich kategorií v jazyce současné české publicistiky, administrativy, stylu odborného a — jako celku — v jazyce stylu věcného (ve formě speciálních tabulek a k tomu příslušné interpretace ukazující souhru při fungování jednotlivých druhů slov a jejich morfologických kategorií i vztah k jiným jazykovým rovinám v různých funkčních stylech, srov. Linguistica II, IV, XV).

4.2. Syntax. V 60. letech se výzkum syntaxe v kvantitativní lingvistice soustřeďoval zejména na výpočet délky věty, např. v ruštině, češtině, rumunštině aj. (srov. zde 3). Jen relativně pomalu stávaly se předmětem studia jiné syntaktické jednotky, jevy: počet souvětí podřadných a souřadných a počet větných dvojic, např. v polštině, vztah větných členů a slovního druhu v češtině; jednoduchá věta v němčině, struktura anglické věty apod. Začíná se zjišťovat zatížení syntagmatických struktur v textu, pořádek slov, slovosledné typy, frekvence syntagmat v psaných a mluvených provech, zejména v češtině, větné vzorce v angličtině, apod. Ve shodě se zájmem o projevy mluvené se v 70. letech zkoumá např. v ruštině struktura mluvených projevů, klasifikují se jmenné a neosobní věty jednoduché apod. Studuje se typ a způsob vyjádření některých větných členů (např. v češtině, ve slovenštině aj.), dále vztah mezi gramatickou strukturou výpovědi a jejím aktuálním členěním apod. Zkoumá se počet vět jednoduchých v češtině a angličtině, souvětí s řetězovou závislostí vedlejších vět v češtině apod.

V 80. letech se oživuje opět zájem o délku věty, ovšem již většinou při respektování dalších syntaktických jevů. Věnuje se pozornost např. negaci vzhledem k slovosledu v jazycích různých typologických skupin, zkoumají se nepravidelnosti různých struktur přípustkových vět, např. ve francouzštině, postavení predikátu vzhledem k symetrii věty apod. Přistupuje se k celkové charakteristice fungování větných struktur, zejména věty jednoduché a souvětí ve vzájemných vztazích i ve vztahu k ostatním jazykovým rovinám, především k rovině morfologické; v tomto ohledu jsou zvláště přínosné v češtině kvantitativní charakteristiky publicistiky, administrativy, odborného jazyka i jazyka věcného stylu (Linguistica II, IV, XV).

Zatímco v morfologické oblasti kvantitativní lingvistiky byl od 60. let do začátku 80. let patrný jistý vzestup ve volbě i šíři studia problematiky, rozvoj kvantitativní syntaxe — podle obrazu, který nám nabízí bibliografie kvantitativní lingvistiky — se zrychluje teprve od 70. let. Nemálo k tomu přispěla česká kvantitativní lingvistika. Zejména to platí o současném vývoji, kdy se od studia dílčích problémů přistoupilo k jejich syntetizaci a ke kvantifikaci jazykových jevů při jejich komplexním fungo[238]vání v textu. To ovšem platí i o oblasti morfologie, resp. i o kvantifikaci v oblasti gramatiky. Tato problematika byla v češtině zpracována jako celek i z hlediska metodologického; ukázaly se možnosti, jak využít kvantitativní metody v oblasti gramatické vůbec.

5. Dějiny a typologie jazyků. Také této problematice se v kvantitativní lingvistice věnovala pozornost již před 60. lety. Jak ukazuje bibliografie kvantitativní lingvistiky, byla to po celé dvacetiletí tematika relativně nejméně zpracovávaná (resp. bibliografie přináší nejméně záznamů o pracích, které se v té době opíraly o aparát kvantitativních metod, ale jejich počet je celkem rovnoměrný). K dějinám a typologii jazyků je v bibliografii přiřazena i tzv. lexikostatistika, resp. glottochronologie, která se zabývá časovým určením vzniku jazyka, resp. jazyků zejména na základě změn v slovní zásobě; v poslední době se v oblasti kvantitativního studia vývoje jazyka a typologie výrazněji projevuje i dialektologie (srov. dále), méně výrazně kontrastivní lingvistika.

4.1. Pokud jde o dějiny jazyka/jazyků, řeší se od 60. let — celkem až po dnešek — dílčí problémy jednotlivých jazykových rovin. I v této oblasti měla kvantitativní lingvistika nač navazovat; v jednotlivých jazycích jsou tu přirozeně odlišné podmínky. Kromě toho je zde mnoho problémů do značné míry metodologických, pokud jde o výběr materiálu, délku textu/textů, rozsah korpusu apod. Tím lze vysvětlit, že se i po 60. letech výsledky kvantitativní analýzy vývoje jazyka týkají většinou dílčích jevů, často bez širších souvislostí.

Tak se např. začátkem 60. let studují změny ve struktuře slovníku, např. v maďarštině 14., 16. a 19. stol., věnuje se pozornost slovotvorným typům apod.; sleduje se vývoj některých strukturních prvků spisovného jazyka, např. ruštiny. Pro češtinu se zkoumá vývoj slovní zásoby v době obrozenecké; kvantifikují se přechodníkové vazby v kronice z r. 1685 i vývoj přechodníkových konstrukcí od nejstarších českých památek až do 18. stol. Příspěvkem ke kvantitativní analýze vývoje češtiny je i analýza RKZ při zjišťování tzv. sporného autorství (srov. výše). Kvantitativní studium vývoje polštiny se zaměřuje např. na výskyt dvou budoucích časů. Kvantifikace v oblasti lexikální sémantiky se dostává do popředí u německých sloves označujících fyzické a psychické projevy a stavy v literatuře 18. a 20. stol. Mnoho pozornosti se tu věnuje i hláskoslovným jevům, konstatuje se vztah mezi hláskovou změnou a frekvencí slova. Relativně nejméně místa v kvantitativním studiu vývoje jazyků zaujímá studium syntaxe. Do jisté míry výjimku tvoří české práce, které se zabývají např. počtem typů vět, délkou věty a parentetickou klauzí v českých textech 18. stol., počtem vět jednoduchých a souvětí a jejich strukturami v kronice z r. 1685 apod.

4.2. Typologie se v 60. letech opírala většinou o charakteristiky J. Greenberga (1960); různí autoři se na různých jazycích pokoušeli tyto charakteristiky jednak aplikovat, jednak utřídit, popř. doplnit, pokud jde o zjišťování blízkosti a podobnosti jednotlivých jazyků, např. na základě počtu morfémů k počtu slov v oblasti morfologické struktury apod. Ostatní typologické práce pracují se statistickým aparátem na různých jazykových rovinách. Především jde o rovinu fonologickou: podávají se charakteristiky fonologických systémů různých jazyků, indoevropských i jiných. Na rovině morfologické se dále sleduje poměr morfému a slova, kořenu a slova, sufixu a slova, kvantifikují se kategorie, jako jsou kategorie rod, životnost, osobovost, např. v germánských jazycích, pasívum v češtině, ruštině, litevštině, angličtině, němčině, apod. — Na rovině lexikální se např. na češtině ukazuje význam srovnávání skupiny nominální a verbální, poměr počtu adjektiv k počtu substantiv (tzv. koeficient rozvíjení) a poměr počtu substantiv k počtu sloves (tzv. koeficient nominálnosti), a to s dosahem pro typologii slovníků slovanských jazyků. V rámci slovníku se zavádí [239]např. procento kontinuity u slov jazyků indoevropských, ugrofinských, slovanských, germánských a románských jazyků. — Z hlediska sémantického se navrhuje na základě synonymickém porovnávat počet významů slov v příbuzných jazycích, např. názvy jmen loci v různých slovanských jazycích. — Na rovině syntaktické — opět poměrně řídce zastoupené — se uvádějí jako „míry“ textu: délka věty, poměr vět jednoduchých a souvětí, slovosled apod.

Na češtině byl pak učiněn pokus na základě kvantitativních jazykových charakteristik modelovat typ jazyka, a to na rovině: (1.) fonologické (počet vokálů a konsonantů, počet slabičných typů apod.), (2.) lexikální (frekvenční zóny slov vydělené na základě frekvence, vztahu nominálních a verbálních slovních druhů apod.), (3.) morfologické (frekvence pádů, podíl tvarů slov v textu a v systému apod.), (4.) syntaktické (vztah pádů a syntaktických funkcí, poměr vět hlavních a vedlejších apod.).

4.3. Glottochronologie se těšila v 60. letech poměrně velkému zájmu. S pomocí jejího aparátu byl řešen z hlediska češtiny např. rozpad praslovanské jednoty; dále se o ni opírala stanovení stupně příbuznosti např. malajsko-polynéských jazyků, aplikovala se na studium vzniku jazyků z protoaltajštiny, na klasifikaci indiánských jazyků při západním pobřeží USA, na studium příbuznosti turkotatarských jazyků aj. V 70. letech zájem o glottochronologii celkem opadává.

V české lingvistice se k této tematice přispělo především při řešení rozpadu praslovanské jednoty (srov. výše) a diferenciace na větev jižní, západní a východní, a to od začátku 8. stol. do konce 11. stol., s centrem na 10. stol. To mělo vliv i na stanovení chronologie nejstaršího literárního jazyka Slovanů, který má svůj nesporný jižní slovanský základ (Petr, 1986).

4.4. Od 70. let se vedle kvantitativního studia vývoje jazyka výrazněji uplatňují kvantitativní metody v dialektologii; také zde měly tyto metody již dříve významné místo, srov. předválečné kořeny varšavské školy W. Doroszewského (1934). Z prací uváděných v bibliografii stojí za pozornost např. kvantifikace pronikání cizích prvků do jazyka české menšiny na Daruvarsku, studium sykavek v ruských nářečích, studium morfologických jevů vymírajícího skotského dialektu, nověji podíl nářečních a spisovných prvků ve slovníku a v morfologii u polského venkovského obyvatelstva, výzkum stupně ovládaní dialektu v řadě obcí v jedné oblasti NDR, vliv francouzštiny na alsaský dialekt apod.

Studium vývoje jazyka a typologie celkem rovnoměrně využívají statistických metod při řešení svých vlastních problémů, a proto je zařazujeme do kvantitativní lingvistiky v širokém slova smyslu. Platí to o tzv. glottochronologii, ev. o dialektologii.

Poslední oddíl bibliografie kvantitativní lingvistiky byl původně nazván „Aplikovaná a strojová lingvistika“, od 70. let „Strojová lingvistika. Informatika“. Tato změna označení celkem dobře obráží vývoj problematiky spadající do tohoto oddílu, ale i to, že od 60. let bylo i v kvantitativní lingvistice samozřejmostí využívání moderní výpočetní techniky, resp. samočinných počítačů. Dokladem toho jsou práce kvantitativní lingvistiky v češtině (pro poslední období srov. Linguistica II, III, IV, VII, XV). Od 60. let se také již rýsovalo postupné osamostatňování strojové lingvistiky (computational linguistics); zprvu byly v bibliografii kvantitativní lingvistiky zaznamenávány práce zabývající se některými otázkami strojového překladu, dále otázkami kódování a programování, tedy možnostmi, jak využít samočinných počítačů při automatickém zpracovávání hromadných dat, tj. materiálu pro kvantitativní zpracování, resp. jak provádět toto zpracování automaticky (v poslední době srov. frekvenční retrográdní slovník současné češtiny).

Během 70. let se strojová lingvistika osamostatnila natolik, že dnes tvoří autonomní lingvisticko-technickou disciplínu. Také informatika, která byla v prvním období bibliografie kvantitativní lingvistiky chápána jako jádro aplikované lingvistiky, [240]se stala samostatnou disciplínou, takže se dnes jen okrajově a pouze některými problémy (např. klíčová slova, automatické indexování apod.) může přiřadit ke kvantitativní lingvistice.

Ke klasické oblasti aplikace kvantitativní lingvistiky patří, vedle jazykového vyučování, a to jazyku jak mateřskému, tak i cizímu, nadále těsnopis, optimální sestavování klávesnic psacích strojů (podle frekvence grafémů) apod. Frekvence fonémů a jejich skupin pomáhá zlepšit kód, kterého se běžně užívá v dálnopisu, usnadňuje přenášení informace sdělovací technikou. Má význam i pro automatickou analýzu a syntézu řeči. Frekvence různých jazykových jevů přispívá i k terapii řeči (srov. dnes samostatně se konstituující interdisciplínu — neurolingvistiku, Lehečková, 1984). V jazykovědě samé jde pak o automatickou analýzu textu na základě jazykových dat statistické povahy, nehledě na automatické dělení slov apod.

Bibliografie kvantitativní lingvistiky, nad níž jsme se zde zamýšleli, ukázala vlastně vývoj kvantitativní lingvistiky za posledních 20—25 let v kontextu jak domácím, tak i mezinárodním. Ukázala nejen šíři jazykových problémů, které kvantitativní lingvistika v jednotlivých oblastech řeší, jakých metod a jaké techniky při tom užívá, ale i směr, kterým se tato disciplína ubírá, předmět výzkumu i její přínos pro různé lingvistické výzkumy. Od studia dílčích jevů na jednotlivých jazykových rovinách při aplikaci kvantitativních metod v širokém slova smyslu a s pomocí moderní výpočetní techniky, zejména počítačů, dospívá k pracím syntetickým, které dílčí výsledky kvantifikace na jednotlivých rovinách konfrontují, uvádějí je do souvislostí, a to tak, aby se ukázalo fungování jazyka jako celku, v textu, v jednotlivých funkčních stylech apod. Příkladem takové práce je v češtině monografie Kvantitativní charakteristiky současné češtiny (1985, srov. zde s. 241—247) i ostatní české práce charakterizující jazyk funkčních stylů v současnosti (srov. výše). Technika práce ovšem předpokládá, že zásadních výsledků se mohou dobrat jen práce kolektivní.

Bibliografie kvantitativní lingvistiky podle mého názoru i dokládá, že naše kvantitativní lingvistika zaujímá významné místo v oboru a snese srovnání se světovou kvantitativní lingvistikou, že stála a stojí v ní na předním místě. Přispěla nejen k prohloubenému popisu češtiny, ale i k rozvoji kvantitativní lingvistiky vůbec rozpracováním základních metodologických problémů v oblasti lexika, gramatiky a v poslední době i sémantiky.

 

LITERATURA

 

DOROSZEWSKI, W.: Mowa mieszkańców wsi Staroźreby. Prace Filologiczne, 16, 1934, s. 249—278.

GREENBERG, J.: A quantitative approach to the morphological typologie of language, International Journal of American Linguistics, 26, 1960, s. 178—194.

HERDAN, G.: Type-token mathematics. The Hague 1960.

JELÍNEK, J. - BEČKA, J. V. - TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961. Dále FSČ.

KVANTITATIVNÍ CHARAKTERISTIKY SOUČASNÉ ČESKÉ PUBLICISTIKY. Ed. M. Těšitelová a kol. Linguistica II. ÚJČ ČSAV, Praha 1982. Interní tisk. Dále Linguistica II.

KVANTITATIVNÍ CHARAKTERISTIKY SOUČASNÉ PUBLICISTIKY. TABULKY A GRAFY. Ed. M. Těšitelová a kol. Lingustica III. ÚJČ ČSAV, Prahu 1982. Interní tisk. Dále Linguistica III.

KVANTITATIVNÍ CHARAKTERISTIKY SOUČASNÉ ODBORNÉ ČEŠTINY (V RÁMCI VĚCNÉHO STYLU). TABULKY A PŘEHLEDY. Ed. M. Těšitelová a kol. Linguistica VII. ÚJČ ČSAV. Praha 1983. Interní tisk. Dále Linguistica VII.

LEHEČKOVÁ, H.: Neurolingvistika: předmět, metody a historie. SaS, 45, 1984, s. 154—157.

[241]LEVÝ, J.: Matematický a experimentální rozbor verše. Česká literatura, 12, 1964, s. 541—544.

LUDVÍKOVÁ, M.: Seminář matematické lingvistiky v Bukurešti. SaS, 25, 1964, s. 239—242.

MANDELBROT, B.: Structure formelle des textes et communication. Word, 10, 1954, s. 1—27.

MATHESIUS, V.: O potenciálnosti jevů jazykových. Věstník Královské české společnosti nauk, tř. filoz.-hist.-jazykozpytná, č. 2, 1911, s. 1—24; in: U základů pražské jazykovědné školy. Ed. J. Vachek. Praha 1970, s. 5—34.

O TOČNYCH METODACH ISSLEDOVANIJA JAZYKA (O TAK NAZYVAJEMOJ „MATEMATIČESKOJ LINGVISTIKE“). Ed. O. S. Achmanova. Praha 1961; rec. v SaS, 23, 1962, s. 131—142.

PETR, J.: Darwinovo pojetí jazyka a myšlení. Příspěvek k dějinám filozofie jazyka. SaS, 43, 1982, s. 177—199.

PETR, J.: K působení byzantské mise na Velké Moravě. U příležitosti 1100. výročí Metodějovy smrti. SaS, 47, 1986, s. 81—95.

PSANÁ A MLUVENÁ ODBORNÁ ČEŠTINA Z KVANTITATIVNÍHO HLEDISKA (V RÁMCI VĚCNÉHO STYLU). Ed. M. Těšitelová a kol. Linguistica IV. ÚJČ ČSAV, Praha 1983. Interní tisk. Dále Linguistica IV.

SGALL, P. a kol.: Cesty moderní jazykovědy. Praha 1964.

SHANNON, C. E.: Prediction and entropy of printed English. Bell Syst. Techn. Journal, 30, 1951, s. 50—64.

SOUČASNÁ ČESKÁ ADMINISTRATIVA Z HLEDISKA KVANTITATIVNÍHO. Ed. M. Těšitelová a kol. Linguistica XV. ÚJČ ČSAV, Praha 1985. Interní tisk. Dále Linguistica XV.

TĚŠITELOVÁ, M. Kvantitativní lingvistika. Lingvistické příručky UK. Praha 1977.

TĚŠITELOVÁ, M. - PETR, J. - KRÁLÍK, J.: Retrográdní slovník současné češtiny. Praha 1986.

TRNKA, B.: Kvantitativní lingvistika. ČMF, 34, 1951, s. 66—74.

ZIPF, G. K.: The psycho-biology of language. Boston 1935.

Slovo a slovesnost, ročník 47 (1986), číslo 3, s. 231-241

Předchozí Pavel Jančák, Jan Petr: Evropský jazykový atlas jako nástroj multilingvální komparatistiky

Následující Jiří Krámský: Kvantitativní charakteristiky současné češtiny