Časopis Slovo a slovesnost
en cz

Karl-Heinz Best: Quantitative Linguistik

Ludmila Uhlířová

[Recenze]

(pdf)

Karl-Heinz Best: Quantitative Linguistik

Karl-Heinz Best: Quantitative Linguistik. Göttinger Linguistische Abhandlungen, 3. Peust Gutschmidt Verlag, Göttingen 2001. 132 s.

 

Karl-Heinz Best je německý jazykovědec, germanista a obecný lingvista, jehož publikační a vědecko-organizační aktivity v oblasti kvantitativní lingvistiky v průběhu posledních dvaceti let přerostly svým významem Německo. Na svém kontě má – zatím – více než tři desítky studií, i značně rozsáhlých. Řada z nich vyšla v prestižním mezinárodním časopise Journal of Quantitative Linguistics (tj. v časopise Mezinárodní asociace kvantitativní lingvistiky, prvního celosvětového sdružení kvantitativních lingvistů), další jeho studie vyšly v sérii Quantitative Linguistics (vycházela od r. 1978 nejprve v Bochumi, později v Trieru; některé svazky Best editoval) a v dalších sbornících a časopisech, převážně v Německu. Před několika lety Best inicioval rozsáhlý, velmi úspěšně se rozvíjející mezinárodní projekt věnovaný pravděpodobnostním modelům vlastností jazykových jednotek, zejména jejich délce. Ve spolupráci s lingvisty řady zemí již shromáždil rozsáhlá empirická data z několika desítek jazyků, která umožňují porovnávat mezi sebou typologicky různé jazyky a ověřovat míru obecnosti pravděpodobnostních zákonitostí, jimiž se distribuce délkových jednotek řídí (podrobně o projektu viz http://www.gwdg.de/~best/projekt.htm, kde je též podrobná bibliografie).

Když psal knihu Quantitative Linguistik, měl na mysli především cíle didaktické. Studentům a doktorandům göttingenské univerzity dosud chyběla německy psaná přehledná příručka, která by jim přiblížila kvantitativní lingvistiku jako celek a poskytla jim příklady a návody, jak jazyk zkoumat metodami kvantitativními. Proto také podtitul knihy zní Annäherung. Krok za krokem jsou čtenáři uváděni do oboru, pro který poslední čtvrtstoletí 20. století znamenalo mimořádně výrazný pokrok jak v teorii samé, tak i – díky takřka neomezeným počítačovým možnostem – v empirických výzkumech. Bestův výklad je systematický, názorný a je doprovázen mnoha tabulkami a gra[145]fy. Přitom je komprimovaný, stručný, dobře hierarchizovaný. Nechybí návod, jak užívat dnes běžného statistického softwaru pro vyhodnocování dat (zejména Altmannova Fitteru), ani bohatá bibliografie (přes dvě stě položek). Protože však Best je nejen vynikající metodik, ale i člověk s velkým přehledem o stavu bádání ve světové kvantitativní lingvistice, představuje čtenářům kromě současné kvantitativní lingvistiky německé (což je hlavní cíl knihy) i široký rozhled po zemích sousedních i vzdálenějších. Ilustrační data bere z prací vlastních (některé jeho výsledky jsou tu publikovány poprvé) a z prací dalších autorů německých, ruských (Piotrovskij, Orlov), polských (Samborová), slovenských (Wimmer), českých (Hřebíček), japonských (Sanada) a dalších.

Knížka se skládá z krátkých nečíslovaných kapitol, z nichž některé mají i několik, opět nečíslovaných podkapitol. V úvodním historickém exkurzu o vývoji kvantitativní lingvistiky nechybějí jména Leibniz, Zwirner & Zwirner, Menzerath, Fucks, ze současných např. Altmann, Köhler a další. Několik dalších kapitol je věnováno kvantitativní struktuře slovní zásoby (rozsah slovní zásoby němčiny, jádro slovní zásoby, slovní zásoba aktivní vs. pasivní, nejdelší německá slova atd.).

Jádrem knihy jsou kapitoly o jazykových zákonech. Východiskem výkladů je idea, že jazyk se řídí obecnými zákony (zákonitostmi) nikoli přísně deterministické, nýbrž pravděpodobnostní povahy, které podmiňují, aby fungoval jako nástroj komunikace. Úkolem kvantitativní lingvistiky, vycházející z pojetí jazyka jako „organizovaného systému“, je takové zákony teoreticky odvozovat a empiricky prokazovat na datech z různých jazyků světa. Best se nejprve věnuje zákonu o rozdělení (distribuci) slovních délek. Dokládá podrobně, že základním pravděpodobnostním modelem vystihujícím toto rozdělení je hyperpoissonovo rozdělení, které vyhovuje jak pro němčinu (jak sám ověřil na několika stovkách textů z různých žánrů a z různých vývojových období němčiny), tak pro další jazyky. Vedle tohoto rozdělení se jako modely distribuce délek v různých jazycích uplatňuje ještě malý počet dalších typů pravděpodobnostních rozdělení, zejména rozdělení Poissonovo a rozdělení binomické s různými modifikacemi (jejichž blízkost lze vhodně konfrontovat například pomocí tzv. Ordova kritéria) a s různými parametry. Stejné nebo podobné modely vyhovují i pro distribuci délek dalších jazykových jednotek (počínaje délkou slabik ve fonémech a konče délkou vět v počtu slov a délkou souvětí v počtu vět). Distribučním modelům délek jazykových jednotek je věnována téměř polovina knihy.

V dalších kapitolách je probráno rozdělení podle pořadí a frekvence jazykových elementů (Zipfův zákon v modifikaci Zipfově-Mandelbrotově), dále Martinův zákon (týká se sémantické hierarchizace ve výkladu slovníkových hesel), Menzerathův-Altmannův zákon („čím větší je celek, tím menší jsou jednotky, z nichž se skládá“, zejména s odkazy na Hřebíčkovy práce), zákon Frumkinové (o distribuci jazykových jednotek v textových úsecích), zákony Piotrovského o průběhu vývojových změn v jazyce a v neposlední řadě tzv. zákony diverzifikační, jimiž se řídí formální nebo funkčněsémantická diferenciace jazykových jednotek. Best dokládá, že např. pro distribuci plurálových forem v němčině vyhovuje jako model především opět hyperpoissonovo rozdělení. To, že Best upozornil právě na význam diverzifikačních zákonů v jazyce, patří patrně k největším přednostem knížky. Jestliže se totiž nějaká v jazyce etablovaná kategorie (ať už [146]jde o plurálové formy či slovní druhy, časy, formální, významové či jinak definované kategorie) dá modelovat pravděpodobnostním rozdělením vystihujícím empirickou frekvenční distribuci jejích (formálních či sémantických) skupin či tříd, může takový model kladně vypovídat o tom, do jaké míry je daná kategorie konsistentní, homogenní apod. Jinými slovy, shoda empirické distribuce s vhodným pravděpodobnostním modelem může posloužit i jako jedno z možných kritérií toho, že např. klasifikace určité kategorie je vhodná, opodstatněná apod.

Jako čtenářka Bestovy knihy bych si přála, aby v ní byl komentován koncept náhodné proměnné v jazyce: Co vlastně lze, resp. co nelze považovat za náhodnou proměnnou? Za jakých podmínek lze s různými jazykovými jevy a/nebo kategoriemi zacházet jako s náhodnými proměnnými? Rovněž by mělo být vyloženo, jaký by měl být minimální počet hodnot (tříd) náhodné proměnné, pro jejíž distribuci se hledá vhodný pravděpodobnostní model. Zdá se, že je-li počet tříd velmi malý (tři až čtyři třídy), platí určité omezující podmínky; např. dojde-li k tomu, že počet stupňů volnosti je roven nule, nelze použít testu χ2, ale pouze koeficientu C=χ2/N, protože u C nejsou stupně volnosti (shoda empirických hodnot s vypočtenými hodnotami nastává tehdy, je-li C<0,01).

K.-H. Best napsal mnohem víc než jen učebnici. Je to poprvé, kdy se v jedné knize „katalogizují“ hlavní zákony o jazyce, které byly dosud v kvantitativní lingvistice formulovány. Není podstatné, zda je budeme nazývat zákony či zákonitostmi či zda budeme hovořit prostě o pravděpodobnostních nebo stochastických způsobech fungování přirozeného jazyka. Jestliže již v první polovině dvacátého století byla v Pražské škole, podobně jako později např. ve funkcionalistické škole hallidayovské, opakovaně vyslovena hypotéza o pravděpodobnostní povaze jazyka, pak to, co kvantitativní lingvistika ku konci dvacátého století dokázala, je explikace této obecné hypotézy, odvození konkrétních pravděpodobnostních modelů a jejich empirické ověřování na obsáhlých datových souborech. Podstatné je to, že dnes víme už mnoho o tom, jakými konkrétními pravděpodobnostními postupy lze povahu jazyka jako systému a jeho realizaci v textech popsat. Na stovkách, ba tisících příkladů, které Best předkládá nebo na které odkazuje, je vidět, že veškeré distribuční zákonitosti, které zatím jsou poznány, lze modelovat pomocí několika typů pravděpodobnostních rozdělení (a jejich modifikací), z nichž ty nejtypičtější byly zmíněny výše. Ale dosud se nenašel ani jediný jazykový jev, jehož distribuce by byla modelovatelná normálním (Gaussovým) rozdělením (tj. takovým, jaké známe např. z házení kostkou). Přirozený jazyk tedy evidentně má své specifické zákony, a je úkolem kvantitativní lingvistiky je hledat a ověřovat. Bestova knížka k tomu poskytuje instruktivní návod. Zasloužila by přeložit do dalších jazyků, například do angličtiny, ruštiny nebo češtiny.

Ústav pro jazyk český AV ČR
Letenská 4, 118 51 Praha 1

Slovo a slovesnost, ročník 63 (2002), číslo 2, s. 144-146

Předchozí Věra Schmiedtová: Neil Bermel: Register Variation and Language Standards in Czech

Následující Jan Holeš: François Gaudin – Louis Guespin: Initiation à la lexicologie française