Časopis Slovo a slovesnost
en cz

Reinhard Köhler – Burghard Rieger (ed.): Contributions to Quantitative Linguistics

Jan Králík

[Book reviews]

(pdf)

Reinhard Köhler – Burghard Rieger (ed.): Contributions to Quantitative Linguistics

Reinhard Köhler – Burghard Rieger (ed.): Contributions to Quantitative Linguistics. Kulwer Academic Publishers, Dordrecht – Boston – London 1993. 436 s.

 

Renomovaní specialisté v oboru kvantitativního zpracování jazykových dat Reinhard Köhler a Burghard D. Rieger, oba z lingvistických pracovišť v Trevíru, vydali v úhledném svazku pod názvem Contributions to Quantitative Linguistics soubor statí připravených pro první mezinárodní konferenci o kvantitativní lingvistice, jíž [234]na své univerzitě prolomili hradbu nezájmu o tuto původně interdisciplinární oblast a prosadili její všeobecné uznání za svébytný výzkumný obor.

Velmi různorodé užívání kvantitativních metod v ještě různorodějších oblastech lingvistiky rozčlenili do sedmi oddílů, na 1. Modely a výklady, 2. Dynamiku a sémiotiku procesů, 3. Kvantifikaci a měření, 4. Textové struktury a jejich zpracování, 5. Dialektologii, 6. Fonologii a fonetiku a konečně 7. Statistické studie, zprávy, projekty a výsledky.

V úvodu k modelům a výkladům rozebírá Gabriel Altmann z Bochumi téma věda a jazykověda. Vychází z pojetí vědy jako triády <objekt – přístup – teorie> a na analýze těchto pojmů ukazuje postavení kvantitativních studií mezi ostatními způsoby zkoumání reality. Nezavrhuje přitom intuici, klade však důraz na deduktivní metody, tedy na ověřování hypotéz a na velmi zřetelné a prokazatelné formulování vět předkládaných jako zákony.

K tzv. Menzerathovu zákonu se vracejí August Fenk a Gertraud Fenková-Oczlonová, oba z Klagengurtu. Menzerathovo původní tvrzení z roku 1954 o nepřímé úměrnosti mezi počtem slabik a počtem hlásek v německých slovech upřesňují v novější Köhlerově formulaci na zápornou korelaci a zobecňují je na formulování nejen korelace, ale dokonce funkčního sepětí mezi počtem fonémů ve slabice a počtem slabik ve větě. Šetření provedli na sondách z 29 jazyků a doložili je řadou grafů. Zjištěné vztahy se snaží vysvětlit pomocí perceptivních a kognitivních mechanismů.

Pohled na text jako na „konstrukt agregací“ rozebírá Luděk Hřebíček z Orientálního ústavu AV ČR. Agregacemi rozumí z vět se skládající konstrukty uvnitř textů. Aplikací tzv. Menzerathova-Altmannova zákona (vztahu ve tvaru y = Axb, kde y = průměrná délka konstituentu, x = délka konstruktu a A, b jsou konstanty) pak řeší otázku, zda agregace lze chápat jako konstituenty konstruktu zvaného text. Za určitých zjednodušujících předpokladů dochází ke kladné odpovědi. Přestože text a agregace (vět) jsou značně komplikované fenomény, lze je překvapivě zprůhlednit zkoumáním jejich stochastických vlastností.

Jazyk jako systém se silnými samoregulačními a samoorganizačními mechanismy je předmětem zájmu tzv. synergetické lingvistiky, jejíž základní pojmy a zásady shrnuje první z pořadatelů sborníku, Reinhard Köhler. Synergetické studie docházejí k jednotnému závěru, že jazyky spějí k (blíže nespecifikovanému) ideálnímu vnitřnímu uspořádání. Funkční hledisko promítá takové synergetické poznatky ovšem do každého přirozeně fungujícího sémiotického systému, neboť vždy odhalí i snahu po nejmenším úsilí o vyjádření významu a o dekódování obsahu atd. Autor připojuje i popis základních typů synergetických modelů a přehledně shrnuje různé názory na samoregulační mechanismy.

Ze schopností lidského mozku zakódovat a asociovat pojmy vychází ještě jiný pohled, který předkládá Anatolij A. Polikarpov z Lomonosovovy univerzity v Moskvě v úvaze o modelu života slov. Jeho model vychází z předpokladu o existenci asociativně-sémantického potenciálu každého slova i jazykového znaku. Podstatou tohoto potenciálu je první význam, se kterým dané slovo či znak vstupuje do užívání. Potenciál se může měnit podle situací, do kterých dané slovo či znak, prvek vstupuje, podle podobností, vzbuzených asociací, mimojazykových významů atp. [235]Potenciál je charakterizován dvěma parametry: stupněm aktivity a stupněm nestálosti. Z těchto předpokladů vychází postulování délky života pro slovo a pro jeho význam a modelování závislosti této délky na počtu a způsobu změn komponent významu.

V oddílu věnovaném dynamice procesů a sémiotice zavádí druhý pořadatel sborníku Burghard B. Rieger spolu s Constantinem Thiopoulosem z Athén symboly umožňující popis a formalizaci samoregulačních (synergetických) mechanismů. Předpokladem úspěšnosti popisu je měřitelnost závislosti mezi dvěma lexémy pomocí počtu společných kontextů, ve kterých jsou zaměnitelné. Samoregulační vlastnost odvozují v analogii k situacím vyvolaným v matematické topologii a v teorii kategorií.

Ulrich Schade a Uwe Laubensteinová, oba z Bielefeldu, polemizují s deset let starou Leveltovou tezí o možnosti popsat opravy v přirozené promluvě modelováním koordinovaných struktur. Ukazují především, proč je Leveltova teze nepoužitelná pro případ oprav syntaxe a na základě studia navrhují pro syntax jiný, nový způsob modelování oprav.

Mildred L. G. Shawová a Brian R. Gaines, oba z University of Calgary, se zabývají metodologií analyzování terminologických a konceptuálních rozdílů při užívání jazyka v různých společenských oblastech. Z rozsáhlého projektu však předkládají pouze první fázi, jíž je zmapování problematiky. Na kvantitativní zpracování dat je v této oblasti příliš brzy.

Oddíl nazvaný Kvantifikace a měření otevírají Rüdiger Grotjahn a Gabriel Altmann, oba z Bochumi, metodologickým rozborem problému modelovní proměn délky slova. Vycházejí samozřejmě ze starších prací Fucksových, diskutují návrhy R. G. Piotrovského a podrobně probírají pojetí jednotky měření, velikosti souboru, získávání dat z textu a z různých typů (frekvenčních) slovníků. Jen letmo se věnují vlastnímu modelování, aby mohli o to naléhavěji vyslovit svá doporučení: modely je třeba opírat o pevný teoretický základ (bezhlavá empirie nemá smysl), jednotky měření je třeba volit tak, aby šetření mohla být průkazná, zvolená statistická zpracování musí respektovat povahu dat a diskutovat všecky druhy chyb.

V dalším příspěvku zavádí Peter Schmidt z Trevíru speciální symboliku pro popis syntaktických konstrukcí a předkládá svůj první pokus o měření jím navržených morfosyntaktických charakteristik ruštiny, bulharštiny, němčiny, švédštiny, angličtiny, francouzštiny, španělštiny, turečtiny, svahilštiny, abcházštiny a čínštiny. Výsledky různých návrhů indexů obohacují typologická studia.

Oddíl věnovaný textovým strukturám a jejich zpracování je uveden statí Evangelose Dermatase a G. Kokkinakise z Patrasu, kteří navrhují obecný algoritmus pro definování optimální množiny gramatických tříd. Ověření provedli na řeckých publicistických textech v souhrnné délce 120 000 slov (ručně kódovaných), z nichž automaticky vyčleněné tři skupiny o 90, 200 a 500 kategoriích byly navrhovaným algoritmem redukovány na počty 5, 15 a 20 gramatických tříd.

Autoři Fernande Dupuis a Daniel Gosselin z Quebecké univerzity v Montrealu, Benoit Habert z Fontenay-aux-Roses a Sonja Lafondová a Monique Lemieuxová opět z Montrealu referují o způsobech počítačového zpracování [236]francouzských středověkých textů ze 14. a 15. stol. Užité metody přehledně rozčleňují na plně automatické a poloautomatické s lidskou pomocí („SATO“).

Koichi Ejiri z Jokohamy a Adolph E. Smith z Kalifornie pak diskutují spolehlivost obou hlavních Zipfových formulí a upozorňují na příbuzný návrh, publikovaný před deseti lety S. Mizutanim: počet různých slov o frekvenci menší nebo rovné f lze vyjádřit jako podíl mezi f-násobkem celkového počtu různých slov L a váženým součtem f a délky textu N (vážením se míní uplatnění konstantních koeficientů a, b u sčítanců):

K = L.f/(af + bN).

Tento empirický vzorec pak na základě trendů odečtených z grafu upřesňují rozšířením o logaritmus tzv. zatížení slovníku. Sami pak pro výpočet zatížení slovníku navrhují ještě další vzorec (u nás byly publikovány jiné návrhy J. Mistríka a M. Těšitelové).

Statistickému modelování se věnují nejprve Ute Essenová a Hermann Ney, oba z výzkumného pracoviště firmy Philips v Cáchách. Pro úkol automatického porozumění řeči řeší problém co nejpřesnějšího určení pravděpodobností konkrétních slovních spojení. Novým principem v jejich algoritmu je odkládací paměť pro urychlení práce počítače s frekventovanými prvky. Ověření na německých a anglických textech ukázalo, že navrženým postupem lze při určování pravděpodobnosti spolehlivě vyloučit náhodné odchylky.

Na modelovém definování tříd ekvivalence na úrovni slov pomocí statistického generování shluků (clusters) spolupracoval Herman Ney na témže pracovišti s Reinhardem Kneserem. Jimi navržený algoritmus pracuje na základě identifikace vnějších znaků slov v psaném textu (velká písmena, koncovky aj.) Ověření na rozsáhlém anglickém korpusu (1,1 milionu slov) a na kratším srovnávacím korpusu německém generovalo ve slovníku o rozsahu 14 000 slov 120 tříd a ve slovníku o rozsahu 50 000 slov 350 tříd.

Příspěvek Jana Králíka z Ústavu pro jazyk český AV ČR je věnován stochastickému zobecnění seriační metody založené na Kendallově větě, uplatnitelné pro řazení textů podle jejich vzájemné podobnosti v případech, kde lingvistická analýza zůstává neúčinná. Testem na příkladu uspořádání skupin indoevropských jazyků pomocí počtů společných kořenů a testem přiřazení Rukopisu královédvorského ke srovnávacím textům z různých dob je prokázána aplikovatelnost navrženého zobecnění. Toto zobecnění je pak ještě zpřesněno nahrazením booleovských identifikátorů charakteristik měřitelnými veličinami a ověřeno na souboru textů z české publicistiky.

Mario Refice a Micheline Saavinoová z univerzity v Bari předkládají nezávislé modely globální kvantitativní charakteristiky jazyka. Staví na principu markovských řetězců a pravděpodobnostních přechodů mezi dvojicemi a trojicemi gramatických kategorií. Navržený model s podmíněnou pravděpodobností ověřují na textech z holandštiny, angličtiny, francouzštiny, němčiny, řečtiny, italštiny a španělštiny.

Konečně Christa Womserová-Hackerová z univerzity v Řezně uzavírá tento oddíl studií zkoumající komunikaci člověka s počítačem v přirozeném jazyce. Pro účely budoucího statistického zkoumání definuje různé kategorie komunikačních situací a způsoby formulování statistických hypotéz.

[237]V prvním ze dvou příspěvků v oddílu věnovaném dialektologii podává Sheila Embletonová z York University v Ontariu zprávu o projektu multidimenzionálního přístupu k dalšímu zpracování dialektologických dat. Jako výsledný výstup předpokládá dvojrozměrné zobrazení do tzv. lingvistických map, ve kterých jsou jednotlivé lokality rozmístěny ve vzdálenostech odpovídajících míře jejich vzájemné podobnosti. Po sestavení lingvistických map následuje konfrontace s obvyklými mapami geografickými. V druhém příspěvku pak Hans Goebl shrnuje základy kvantitativní klasifikace dat z jazykového atlasu italštiny pro oblast Lombardie a praktické zkušenosti s jejich zpracováváním. Přehled je doplněn velmi četnými příklady a barevnými mapkami teritoriálních izoglos.

Samostatný oddíl fonologie a fonetiky je tvořen jediným příspěvkem, článkem o statistických aspektech konverze foném-grafém. Autoři Panagiotis E. Rantzepopoulos, A. E. Tsopanglou a G. K. Kokkinakis, všichni z univerzity v Patrasu, upozorňují, že algoritmy pro syntézu zvukové podoby psaného textu (konverze ve směru grafém-foném) nejsou obecně invertovatelné. Pro konverzi grafém-foném proto navrhují jiný přístup, založený na tzv. skrytých markovských řetězcích. Těmito autory vypracovaný (ne explicitně popsaný) algoritmus s principem samoučení dosahuje v případě řečtiny až 95% spolehlivosti.

Závěrečný oddíl je věnován různorodým studiím, zprávám, projektům a výsledkům. V jeho úvodu Rolf Hammerl z Bochumi a Jadwiga Samborová z Varšavy podávají zprávu o synergetických výzkumech provedených na polštině, k nimž doplňují řadu číselných tabulek a rozsáhlou bibliografii. Mark Olsen z Chicaga se věnuje zjišťování frekvencí slov z vybraných tematických okruhů souvisejících s mezilidskými vztahy (amour, femme, homme, aimer atd.) ve francouzských literárních dílech šesti století. Výsledky podává s přehledností a s návrhem dalšího postupu. Strukturální gramatikou čínské věty se z hlediska počítačové reprezentace zabývá Qian Feng, působící v Salcburku. Podrobněji vysvětluje roli orientované polohy, rekurzivnosti, předběžné znalosti a logického uspořádání a navrhuje popis pravidel pro kvantitativně uchopitelný popis struktury věty. Jogchum Reitsma z Leeuwardenu informuje o stavu kvantitativní lingvistiky na Fríské (Frysk) akademii, o korpusu fríštiny a o projektu automatické lematizace a značkování slov v tomto prastarém, ale stále živém germánském jazyce. George Silnitsky ze Smolenska rozpracovává korelační systém vlastností sloves v angličtině a němčině. V úvahu bere počet slabik, morfologický typ, mimoverbální valence, syntaktické vazby, diachronní informace, etymologické zatížení a stylistické vlastnosti. Napříč těmito kategoriemi procházejí tematické (obsahové) charakteristiky. Uspořádání výsledků je naznačeno v několika tabulkách. Konečně Marek Świdziński z Varšavy popisuje základní součást univerzálního základního slovníku polštiny, databázi 1500 polských slov opatřených plnou syntaktickou informací. Ruční značkování mělo pracovat se čtyřmi desítkami různých syntaktických schémat. Při počítačovém zpracování vznikla jako vedlejší produkt početná statistická data: frekvenční seznamy typů vět, idiomatických větných schémat, párových typů atd. Část těchto výsledků je publikována v tabulkách.

Slovo a slovesnost, volume 56 (1995), number 3, pp. 233-237

Previous Eva Koktová: Ludmila Zimová: Způsoby vyjadřování větných členů v textu: konkurence pojmenování, pronominalizace a elize

Next Zdeněk Hlavsa: Jiří Kraus šedesátiletý