Časopis Slovo a slovesnost
en cz

Sovětský přínos k matematickým modelům proměny slovníku v čase

Jan Králík

[Rozhledy]

(pdf)

Советский вклад в изучение математических моделей изменения словаря во времени / Une contribution soviétique aux modèles mathématiques des changements du vocabulaire dans le temps

Matematické modely v glottochronologii (lexikostatistice), rozpracované zejména M. Swadeshem[1] a R. B. Leesem,[2] vyvolaly řadu kladných i záporných reakcí. Stavěly na známých myšlenkách G. K. Zipfa, který jako první uvažoval o závislosti frekvence slova na době jeho vzniku (stáří),[3] ale vedle toho přinesly také některé nové, už obtížněji přijatelné úvahy.

Swadeshova glottochronologie sleduje určitou množinu slov, v níž dva sledované jazyky postupně nahrazují některé výrazy jinými. Jazyky se tak zvolna navzájem vzdalují, přičemž lze předpokládat, že existoval časový bod, v němž byly totožné, tj. kdy existoval jediný původní jazyk, jehož rozštěpením vznikly dvě právě zkoumané větve.[4]

Swadesh definoval množinu tzv. kořenových morfémů, které odpovídaly speciálně volenému okruhu pojmů. Spolu s Leesem předpokládal, že „morfematický rozpad“ (elementární odchýlení sledovaných jazyků) je konstantní v čase a že nezávisí na zkoumaném jazyce. To je analogie fyzikálního předpokladu pro to, aby dobře fungoval rozpadový model známý z kvantové fyziky.

Při bližším pohledu na tuto analogii však snadno zjistíme, že lingvistický případ se od fyzikálního do jisté míry liší. Přinejmenším v příčinnosti: u rozpadu prvku, např. radioaktivního uhlíku, je výsledný stav komponován z velkého počtu náhodných jevů; pro každý atom je dána možnost „rozpad - nerozpad“, jejíž póly se realizují s určitou pravděpodobností.[5] Morfematický rozpad je jiný, jeho důvodem není potenciální sklon morfému k rozpadání (tedy inherentní vlastnost, která se u atomu projevuje náhodností jeho osudu), ale interakce celé řady okolností jazykových, společenských, časových a také zcela náhodných vzhledem k morfému samému (anebo zase příčinných, pokud např. časový nebo společenský zvrat zasáhl tu oblast [52]vyjadřování, do níž morfém patří). Stěží lze tedy uznat, že morfematický rozpad je konstatní v čase, přesněji, že to, nastane-li jev „nahrazení morfému jiným“ právě v časovém intervalu (s, s + t) závisí pouze na t.

Odlišnost lingvistické problematiky od zdánlivé fyzikální paralely je však ještě hlubší. Na prvý pohled je např. možno považovat Swadeshův seznam 100 nebo 200 slov (kořenových morfémů) za výběr vzorku, v němž je pro všechny jeho prvky sklon k rozpadu týž, ale ve skutečnosti jen na prvý pohled. Swadesh sám měřil pro každé slovo tzv. retenci, míru zachování (retention rate), tj. „sklon k nerozpadnutí se“. Došel k závěru, že retence se pro různá slova liší, a seznam tedy není vzhledem k rozpadu homogenní. Tento nedostatek vytýkal Swadeshovu seznamu také M. Joos;[6] jiným důkazem, že pro každé slovo platí jiný rozpadový model, jsou výsledky práce Vl. Skaličky,[7] který měřil tzv. kontinuitu slov v různých jazykových skupinách.

Je-li podkladem pro sestavení testované množiny slov (kořenových morfémů) množina pojmů, má v modelu svou úlohu i sémantické hledisko, které výběrem pojmů umožňuje určitou objektivizaci. Usiloval o ni už M. Swadesh výběrem univerzálních pojmů nezávislých na kulturní úrovni jazyků. Na sémantický výběr pojmů však také můžeme pohlížet jako na analogii řezu mnoharozměrným prostorem. Takových řezů existuje libovolně mnoho. V komplexu všech řezů se ovšem nemusí dva různé jazyky vždycky lišit, ale může existovat řez, nebo dokonce několik řezů, v nichž se dva různé jazyky budou jevit jako shodné (takovými řezy bude systém všech podmnožin té množiny pojmů a jim odpovídajících slov, v nichž se oba jazyky shodují).

Měření časové hloubky je tak z mnoha důvodů zatíženo chybou. Přitom mají autoři glottochronologických modelů malou vyhlídku na to, že by všechny příčiny chyb mohli uvést na pravou míru, nebo že by je alespoň odhalili. Statistika nabízí toto řešení: neodhadovat délku času, po nějž se zkoumané jazyky vyvíjejí odděleně, ale protože jde o neopakovatelný, jedinečný jev, udat intervalový odhad t, tedy hranice časového intervalu, v němž došlo s předem zadanou pravděpodobností k oddělení jazyků. Náznak této myšlenky se objevuje už u R. B. Leese, z jehož práce vyšla S. Gudschinská,[8] která upravila intervalový odhad t pravděpodobným okolím v mezích daných směrodatnou odchylkou; přesný výpočet intervalového odhadu podal A. J. Dobson.[9]

Postup do značné míry nový ukazuje práce N. J. van der Merweho,[10] který se s jistou nadějí na úspěch snaží překlenout nereálný předpoklad o konstantnosti a homogenitě morfematického rozpadu v čase. Van der Merwe uvažuje o analogii směsi tří izotopů s různými poločasy rozpadu a dělí proto Swadeshův seznam (testovanou množinu) na tři části, z nichž v každé probíhá rozpad jinak (charakterizováno konstantami T1, T2, T3). Pro počet morfémů společných sledovaným jazykům v čase t užívá prostého součtu

 

[53]Taková rovnice má samozřejmě jediné řešení, velmi složité a zcela závislé na tom, jak se testovaná množina rozdělí, tj. na hodnotách T1, T2, T3. Sčítance však nemusí být tři a nemusí jich stačit ani devět, jak uvažuje van der Merwe dál. Hodnoty Ti (i = 1, 2, 3) totiž platí jen pro jeden jediný daný případ, pro který jsou vytvořeny. Van der Merweho rovnice by tedy pro to, aby mohla platit pro více než jen jednu konkrétní situaci, vyžadovala zobecnění.

Zcela přirozené zobecnění bychom mohli konstruovat např. takto: Označme množinu sledovaných dvojic kořenových morfémů W = {wi}n1 a proveďme rozklad W na disjunktní třídy podle různé míry zachování (retention rate) morfémů, s níž počítá van der Merwe. Jestliže uvnitř každé třídy bude jejím prvkům příslušet stejná míra zachování, pak, označíme-li třídy Wj/1m, bude ve třídě Wk retence rovna ck a při přepisu Tk = — (2 . log ck)—1 dostaneme přehledné zobecnění van der Merweho vzorce:

 

(množinová funkce card(.) udává počet prvků množiny (.)). Třídy Wj jsou tedy charakterizovány různým stupněm zachování, retence. V každé z nich se uplatňuje rozpadový model zvlášť a do výsledného součtu společných slov, která ve sledovaných seznamech zbudou v čase t, se jednotlivé sčítance váží podle početnosti třídy, již reprezentují.

Váhy mohou být ovšem i jiné, např. 1/m (pro všechna j) v limitním případě, o kterém se van der Merwe zmiňuje jako o nepostižitelném, nicméně navrhuje postup jeho řešení. Domníváme se, že je tu ještě jedna možnost, jak přistupovat k tomuto limitnímu případu: Každému morfému přísluší jiný sklon k rozpadání, který lze popsat nějakým rozpadovým modelem. Kdyby se podařilo dokázat (alespoň teoreticky), že se rozpad řídí např. Poissonovým zákonem, stálo by pak za úvahu vyšetřit, jak by se odpovídající množina (soustava) takových modelů jevila v součtu jako celek s jistou strukturou (nikoli v součtu prostém). Není vyloučeno, že by se zde uplatnilo záporně binomické rozdělení jako směs Poissonových rozdělení s různými hodnotami parametru.[11]

Jinou cestou rozvinul van der Merweho myšlenku W. Milke.[12] Předpokládal možnost seřadit morfémy podle klesající retence tak, aby pro j-tý morfém v čase t byla retence rovna ci(t) = exp (— f(j) . t). Funkci f(j) pak Milke aproximoval přímkou s parametry a, b, a očekávaný počet yn(t) slov, která z původního n-členného seznamu přežijí až do okamžiku t, navrhl spočítat jako následující aproximaci příslušného integrálu:

 

(po opravě tiskové chyby). Jakkoli vypadá tento vzorec slibně, předpoklady pro jeho vyčíslení jsou velmi omezující. W. Milke pro výpočet požaduje, aby seznamy slov, uspořádané sestupně podle retence, byly pro všechny jazyky sémanticky ekvivalentní.

Nejnovější glottochronologický matematický model dvou sovětských autorů M. V. Arapova a M. M. Chercové[13] odkrývá v podobném záměru dosud nedotčený obzor a pokouší se řešit problematiku proměny slovníku v čase z její podstaty.

[54]Autoři si byli vědomi všech obtíží, které provázejí definici pojmu jazyk. Omezili se proto na hlediska, která byla pro jejich model rozhodující. Chápou jazyk jako obecný diskrétní objekt x, který existuje v určitém časovém intervalu, přičemž časovou návaznost vývoje (předek — potomek) považují za jeden z možných základních druhů příbuznosti a větvení vývoje (existuje společný předek) za druhý její základní typ. Jazyk je od časového intervalu své existence neoddělitelný.

V koncepci takového označení se však u autorů prolínají dvě hlediska: symbolický znak pro jazyk jako takový a přiřazení časové hodnoty. Pod x ε L, kde L je množina zkoumaných jazyků, se rozumí jednak prvek této množiny (jazyk včetně jeho vzniku, vývoje a zániku v obecně nekonečném čase), jednak konkrétní hodnota z definičního oboru časové přímky (stáří jazyka = reálné číslo). Je tedy x abstraktní veličina. Ovšem pak by bylo třeba dodat, že takové x je definováno pouze na kladně orientované polopřímce, jejíž počátek je shodný s počátkem časového intervalu, v němž příslušný jazyk existuje, a dále, že se pohybujeme v dvojrozměrném časoprostoru, kde jakákoli úvaha o čase, který není pokryt zmíněnou polopřímkou, pozbývá smyslu.

Hodnotou veličiny x se tedy rozumí stáří jazyka, které autoři modelu chápou jako reálnou konstantu. Přitom pro a, b ε L přicházejí v úvahu tři relace: „a je předkem b“, „a má přímý vliv na b“ a „a je bezprostředním předkem b“. Pomocí nich je možno definovat oba zmíněné typy příbuznosti i nově postihnout Schleicherovu teorii (1862) a genealogický strom. Tento přístup má své přednosti: není např. vázán předpoklady existence prajazyků nebo společných předků, oprošťuje tak nově budovaný model od zatížení, které nese abstrakce z empirie, ale přitom nevylučuje jakékoli případné hlubší propracování ex post.

Vlastní model vypracovali sovětští autoři na základě swadeshovských předpokladů, že (1) slovník každého jazyka obsahuje určitou stabilní část (obdobu Swadeshovy množiny kořenových morfémů), (2) v prvcích této množiny se odráží množina pojmů společná všem jazykům, (3) počet slov ze stabilní části, která budou užívána v určitém časovém intervalu, závisí pouze na délce tohoto intervalu, a (4) pravděpodobnost užití je pro všechna slova stejná. Předpokládá se, že původní stabilní část lexika se neustálými inovacemi rozpadá.

Klíčem k matematickému modelu je bod (3). V časovém okamžiku t0 se fixuje stabilní část lexika (počet prvků = N0). Postoupí-li čas vpřed o dt, některá slova zaniknou a budou nahrazena jinými (počet prvků, které zbyly z původní stabilní části, je (N0 . p) ˂ N0 ; p značí virtuální úbytek). V limitním přechodu přejde p v exponenciálu se záporným časovým parametrem, takže počet slov, která z původní stabilní části zbudou v lexiku v čase t, bude

N(t) = N0 . exp (— ηt).

Číslo η udává rychlost rozpadu. Tento základní glottochronologický vzorec, chápaný až dosud staticky, rozvádějí sovětští autoři do tvaru dynamického. Vycházejí při tom z abstrakce jazyka neoddělitelného od času a rozpracovávají diskrétní swadeshovský model tak, aby jej bylo možno kvantitativně ověřit:

V stabilní části lexika předpokládají — a to je podstatné — existenci složitých frekvenčních vztahů, které při jakémkoli vývojovém pohybu podléhají vnitřním změnám. Další úvahu budují na skutečnosti, že na konci frekvenčního seznamu (u slov s nízkou frekvencí) dochází často k tzv. zániku slov, k rozpadu slovníku, k nahrazení jednoho slova jiným. Obdobný jev je možno sledovat i v rámci jednotlivých frekvenčních tříd. Dokonce je to pro diferenciální úvahu příhodnější.

Nemění-li se časem způsob rozpadu, je-li tedy η konstantní, je úbytek slov v libovolné (i-té) frekvenční třídě přímo úměrný délce časového intervalu, v němž se rozpad pozoruje; přitom na žádném „místě“ nemůže nastat rozpad dvakrát. Tato úvaha vede k obdobě základního glottochronologického vzorce (uvedeného výše), tentokrát [55]na přehledné úrovni frekvenčních tříd. Pokud jde o pořadí frekvenční třídy (obecně pořadí ve frekvenčním seznamu), počet rozpadů je funkcí jeho odmocniny (důkaz podán).

Novost přístupu spočívá v možnosti počítat s dosud konstantní rychlostí rozpadu η jako s funkcí času. To je značný pokrok proti Swadeshovi, Leesovi i van der Merwemu, jejichž modely počítaly pouze s funkcí retence a tu považovaly za konstantní. Přístup M. V. Arapova a M. M Chercové je však pokrokem i proti původnímu návrhu W. Milkeho. Sovětští autoři vybudovali obecnou variantu modelu, v němž je η funkcí času: η = η(t). Protože rozpad obecně nikdy neustane, musí platit η(t) > 0 pro všechna t. Autoři záměrně volí η(t) = — γt—1/2 jako analogii se závislostí na odmocnině z pořadí a ověřují platnost této volby na úrovni frekvenčních tříd. Respektování frekvenční struktury materiálu jim umožňuje těžit z něho maximum informací.

Experimentálnímu ověření modelu věnovali autoři tři čtvrtiny své práce. Jako materiálu užili různých slovníků několika evropských jazyků.[14] Výsledky shrnuli do čtyř problémových okruhů: v prvém podali tabelaci závislosti pořadí slova (i) na době jeho vzniku (t), v druhém graficky a analyticky popsali tvar funkční závislosti η = η(t) (tedy proměny rychlosti, s níž se slovník v čase mění), ve třetím okruhu ukázali, že pro počet slov společných dvěma jazykům, které se od určitého okamžiku vyvíjejí různě, lze odhadnout jen spodní hranici a konečně ve čtvrtém okruhu konfrontovali získané datování s tradičními názory.

Ve všech případech se ukázala dobrá shoda teorie s empirií a autoři došli k poznatkům dalším. Skutečnost, že starší slova s menším počtem slabik mají vyšší frekvenci, rozšiřuje novým směrem obzor Zipfova principu tzv. nejmenšího úsilí;[15] grafický tvar změny rychlosti rozpadu slovníku rozděluje zkoumané jazyky ve shodě se skutečným stavem do čtyř kategorií: (a) s minimální změnou v čase (ruština a čeština), (b) s pozvolným zpomalováním změn (francouzština), (c) s náhlým zpomalením změn (angličtina) a (d) s lokálními maximy změn v 15. stol. a v současnosti (němčina).

Nepříliš četné matematické modely v glottochronologii prošly od svých počátků značným vývojem. Zřetelnějšímu úspěchu jejich aplikace stojí v cestě dvě základní překážky: (1) Rozpad každého morfému probíhá v témž časovém úseku s proměnlivou intenzitou (v každém okamžiku se mění šance rozpadnout se). (2) Každý morfém má jiný apriorní sklon k rozpadání.

O řešení prvního problému se zatím pokusili pouze sovětští autoři M. V. Arapov a M. M. Chercová, přičemž druhý problém obešli obrácením pozornosti k frekvenční struktuře materiálu.

Druhý problém se často zjednodušuje tím, že se považuje Swadeshův seznam za výběr slov, jejichž sklon k rozpadání (resp. míra zachování) se navzájem téměř neliší (disjunktní rozklad množiny W je identický). To však znamená značnou nepřesnost. Oslabuje se tím reálná aplikovatelnost rozpadového modelu a van der Merweho pokus o vnitřní kategorizaci množiny to jen zdůvodňuje. Jeden problematický krok — totiž určení porovnávací množiny pojmů — se tím rozdělí na ještě problematičtější vnitřní členění této množiny. Přitom motivace takového obratu je zaměřena k cíli jen zdánlivě: srovnávací množina se dělí proto, aby se odstranily neshody mezi výsledky a skutečností v délce doby, po niž se sledované jazyky vyvíjejí odděleně. Vodítkem je zde znalost skutečnosti, což v jiných případech schází, takže podobný model právě [56]v těchto případech, v nichž by měl odhalovat dobu samostatného vývoje jazyků sám, selže. Přičteme-li k tomu ještě problematičnost splnění některých předpokladů nutných k aplikaci matematických modelů vůbec, začne se jevit spolehlivost většiny dosavadních matematických modelů v glottochronologii jako sporná.[16]

Ve srovnání s původními modely znamená práce sovětských autorů jednoznačný přínos. Řeší v novém pohledu problém dosud opomíjený, využívá jako nového zdroje informací frekvenční struktury materiálu a jednotlivé části modelu jednotně aplikuje na řadu jazyků. Tím samozřejmě nemizí všecky problémy. Je však třeba konstatovat, že právě prací M. V. Arapova a M. M. Chercové učinila glottochronologie významný krok na pevnější půdu.


[1] M. Swadesh, Lexico-Statistic Dating of Prehistoric Ethnics Contacts, Proceedings of the American Philosophical Society 96, 1952, 452—463; týž, Towards Greater Accuracy in Lexicostatistic Dating, International Journal of American Linguistics 21, 1955, 121—137.

[2] R. B. Lees, The Basis of Glottochronology, Language 29, 1953, 113—127.

[3] G. K. Zipf, Prehistoric ‘Cultural Strata’ in Evolution of German: the Case of Gothic, Modern Language Notes 62, 1947.

[4] Na slovanské jazyky aplikovali Swadeshovu metodu M. Čejka - A. Lamprecht, K otázce vzniku a diferenciace slovanských jazyků, Sb. prací filozof. fak. brněnské univerzity 12, A 11, 1963, 5—20.

[5] Z pravděpodobnostního hlediska o tom srov. A. Rényi, Teorie pravděpodobnosti, Praha 1972, kap. II.

[6] M. Joos, Glottochronology with Retention-Rate Inhomogeneity, Proceedings of the Ninth International Congress of Linguistics, The Hague 1964, s. 237.

[7] Vl. Skalička, O kontinuitě slov, SaS 28, 1967, 355—359.

[8] S. Gudschinsky, The ABC’s of Lexicostatistics (Glottochronology), Word 12, 1956, 175 až 210.

[9] A. J. Dobson, Interval Estimates of Language Divergence Times, Journal of Applied Probability 7, 1970, 781—784.

[10] N. J. van der Merwe, New Mathematics for Glottochronology, Current Anthropology 7, 1966, 485—488; k tomu srov. V. Krupa, Nové cesty glottochronológie, Jazykovedný časopis 18, 1967, 167—170.

[11] Na jazykový materiál toto rozdělení aplikoval A. Uchytil v dipl. práci Distribuce frekvence slov v češtině, MFF UK, Praha 1970.

[12] W. Milke, Comment to New Mathematics for Glottochronology, Current Anthropology 7, 1966, 495.

[13] M. V. Arapov - M. M. Cherc, Izmenenije slovarja vo vremeni, Informacionnyje voprosy semiotiki, lingvistiki i avtomatičeskogo perevoda, 1972, č. 3, s. 3—85; titíž, Matematičeskije metody v istoričeskoj lingvistike, Moskva 1974, 168 s.

[14] Např. pro ruštinu to byly frekvenční slovníky E. A. Štejnfel’dové a E. M. Stepanové, slovníky současného ruského jazyka, historický slovník I. I. Sreznevského a etymologické slovníky M. Vasmera, N. M. Šanského, V. V. Ivanova a T. V. Šanské. Jako materiál pro češtinu sloužil frekvenční slovník J. Jelínka, J. V. Bečky a M. Těšitelové, dále staročeský slovník Gebauerův, slovník k českým spisům Husovým K. Nováka a etymologické slovníky J. Holuba, F. Kopečného a V. Machka.

[15] G. K. Zipf, Human Behaviour and the Principle of Least Effort, Mass. 1949.

[16] M. Těšitelová, Co je to glottochronologie? Rudé právo 26. 2. 1967, s. 5.

Slovo a slovesnost, ročník 37 (1976), číslo 1, s. 51-56

Předchozí Václava Holubová: Slovník homonym O. S. Achmanovové

Následující Zdeněk Wittoch: Nové rumunské práce o struktuře lexika