Časopis Slovo a slovesnost
en cz

Qualico 2000 v Praze

Jan Králík

[Chronicles]

(pdf)

Qualico 2000 in Prague

Čtvrtá konference pořádaná Mezinárodní asociací kvantitativní lingvistiky (IQLA) přivedla v srpnu 2000 celosvětové setkání kvantitativních lingvistů – poprvé – do Prahy. Po předchozích konferencích konaných v Trevíru, Moskvě a Helsinkách a po založení samostatného periodika Journal of Quantitative Linguistics (Králík, J.: Renomovaní specialisté v oboru kvantitativního zpracování (R. Köhler – B. Rieger, Contributions to Quantitative Linguistics). SaS, 56, 1995, s. 233–237; Journal of Quantitative Linguistics – Kvantitativní lingvistika v nové podobě. ČMF, 78, 1996, s. 38–40) prochází kvantitativní lingvistika zřetelnou proměnou. Ubývá prostých statistických výzkumů, edic frekvenčních slovníků a kvantifikovaných map a s ohledem na možnosti počítačového zpracování textových korpusů přibývá jednak prací motivovaných možnostmi přímé aplikace kvantitativních šetření, jednak prací analyticky modelových a pravděpodobnostních. S tím ovšem přibývají v kvantitativní lingvistice i nové otázky, srov. Proceedings of the Fourth Conference of the International Quantitative Linguistics Association. Prague, August 24–26, 2000. Ed. R. H. Baayen.

 

Klasická kvantitativní šetření byla na konferenci zastoupena zhruba ve čtvrtině zpráv.

A. Pawlowski a M. Eder (Vratislav) zkoumali v klasických latinských textech rozložení délek vokálů v protikladu k rozložení přízvuku. Z poznatku, že statistický rozptyl u přízvuku je výrazně větší než u délky, vyslovili hypotézu, že přízvuk musel hrát v textovém rytmu latiny obdobnou roli jako dnes v živých indoevropských jazycích. P. Juola (Pittsburgh) ověřoval hypotézu o proměnách jazyka způsobovaných vnějšími vlivy zkoumáním obecné míry změn entropie textových n-gramů. Na rozsáhlejším výběru z National Geographic Magazine za posledních sto let dospěl ke zjištění, že míra změn se zpomalovala nejvýrazněji v letech světových válek. Y. W. Grace Tseová (Hongkong) kvantifikovala strukturu gramatických faktorů ovlivňujících užití určitého členu v názvech obchodních společností na základě dat z britského národního korpusu BNC. Došla k závěru, že užití apelativa v určující části názvu snižuje pravděpodobnost užití určitého členu. L. L. Opas-Hänninenová, P. Hirvonenová a F. Tweedieová (Joensuu) se zabývaly [153]názvy více než čtyř tisíc restauračních zařízení ve Finsku z hlediska jejich původu a kvantifikovaly jejich lokalizace. V Helsinkách jsou výrazně zastoupeny názvy původem anglické, blíže k ruským hranicím ruské a obecně směrem do vnitrozemí názvy cizího původu mizí. V názvech výrazně převažují obecná apelativa nad jmény osob a měst. K. Kageura (Tokio) provedl kvantitativní výzkum třiceti tisíc názvoslovných termínů v angličtině a španělštině. Porovnával repertoár, míru složenosti při užití konkrétních kombinačních typů, míru rozvíjení adjektivem (modifikátorem) apod. Typy termínových kompozit se ukázaly ve sledovaných jazycích vzájemně velmi blízké. V. A. Dolinskij (Moskva) kvantifikoval počty asociací číselných pojmů, zabýval se jejich filosofickými aspekty a jazykovým vyjádřením. Mezi světem pojmů a jazykovým vyjádřením jeho prvků definoval zvláštní typ zobrazení. Společně s D. Rainovou (Moskva) pak pomocí experimentů s vybavováním souvislostí kvantifikoval sémantická pole v lidském myšlení. Jako vedlejší výsledek byl získán soubor lexiko-sémantických variant stojících mimo běžné psychologické asociace soudobých uživatelů ruštiny. J. Mikk (Tartu) kvantifikoval závislost srozumitelnosti estonských textů na délce použitých vět a slov. Dosaženými výsledky podtrhl úlohu předpokladových faktorů – výlučnosti a známosti témat. Obecně platí, že komplikovanější témata vyžadují delší věty. S. Wakayabashi, J. Morishita a Y. Motomura (Himeji) se zabývali vlivem kontextů a znalostí na proces zpracování jazykové informace. W. Cowart (Portland) sledoval srozumitelnost textu z hlediska koordinovaných větných struktur. Kvantifikoval zejména hierarchii vztahů mezi spojkami a jejich okolím. P. Grzybek (Štýrský Hradec) se zaměřil na délku věty v souborech přísloví z různých evropských jazyků. Přísloví volil pro jeho komprimovanost, vytříbenost a pročištěnost jinými mechanismy, než jaké se uplatňují v ad hoc vznikajícím textu. Kvantitativním šetřením ukázal, že rozdělením délky se přísloví významně liší od běžných vět. Pro jednotku slabiky lze popsat rozdělení jako binomické, pro dvojice slabik se blíží hyper-Pascalovu a pro trojice slabik hyper-Poissonovu. S. Mukherjee (Kalkata) připravil přehled výzkumu subjektivní relační klasifikace určitých větných konstrukcí v současné bengálštině. Na kvantifikaci protikladu neformální mluvenosti a oficiální psanosti prokázal, že již jen relační reference náhodných respondentů rozčlení testované soubory vět na dva statisticky významně odlišné celky. S. Budzhaková-Jonesová (Lock Haven) se v bilingvním prostředí soustředila na průměty původní gramatické stavby anglických idiomů do ukrajinštiny a statisticky prokázala významnost tohoto vlivu.

 

Kvantitativní metody slouží také k řešení řady konkrétních úloh.

Z. Mustafa (Ammán) vypracoval kvantitativní studii k optimalizaci užívání multimediálních prostředků při výuce výslovnosti angličtiny. Kvantifikoval vlivy akademického vzdělání, základů znalosti cílového jazyka, předchozích klasických instruktáží o výslovnosti, znalostí práce s multimédii, užívání multimédií ve volném čase, pohlaví atd. A. Way (Dublin) navrhl způsob kvantifikace frekvencí (pravděpodobností) nevhodných alternativ při strojovém překladu. M. Ernestusová (Nijmegen) navrhla pro účely automatického rozpoznávání řeči výpočet optimální separační linie (přímky) mezi příznaky znělého d a neznělého t v nizozemštině. Hlavními sledovanými faktory byly délka uzávěru a výška předcházejícího vokálu. O. Larouk (Villeurbanne Cedex) užil k přípravě budoucí komunikace člověka s počítačem v přirozeném jazyce předpokladové logiky. Navrhl způsob optimalizace rozpoznávání implicitní informace (automatické rozpoznávání jmenných frází), s níž pracují uživatelé jazyka. A. Ushioda (Kanagawa) navrhl automatické konstruování slovních spojení pomocí pravděpodobností přechodu nikoli mezi slovy, ale mezi jejich značkami (tagy) pojímanými jako skryté markovské řetězce. J. Carlberg a V. Kann (Stockholm) vytvořili na základě postupu založeného na markovských řetězcích program pro automatické budování pravděpodobnostní gramatiky s cílem dosáhnout efektivního automatického referování, extrakce klíčových slov i predikce slov a jejich tvarů pro automatické korektory pravopisu (spelling checker). S. M. Embletonová a E. S. Wheeler (Toronto) převáděli textové informace z dialektologického atlasu finštiny do lineárního textu v elektronické podobě. Ve snaze zachovat prostorové vztahy i v lineárním tvaru (a tím možnost sledovat marginální souvislosti) vypracovali speciální postup budování automatických korekcí (lineariza[154]ce vícerozměrných informací). V. Zacharov (Sankt Petěrburg) konstruoval klasifikační schéma pro víceúrovňový informační systém knihovny Ruské akademie věd. Jako jednoho z mezistupňů užil kontrastivních frekvenčních slovníků automaticky definovaných lemmat. Navrženou metodiku souběžně ověřoval také na angličtině.

 

Další typy úloh jsou úzce spojeny s korpusy textů.

L. Rychkovová (Grodno) upozornila na vzájemnou blízkost, avšak nezaměnitelnost fulltextových databází a textových korpusů. V národních korpusech lze dobře provádět výzkumy založené na obecné sémanticko-syntaktické struktuře textu a na kvalitách textových a jazykových objektů ve vztahu ke konkrétním textovým typům. O. Cromm (Anagawa) vyslovil teoreticky podloženou úvahu o hranicích praktické využitelnosti velkých jazykových korpusů pro účely kvantitativní lingvistiky. Ve velmi rozsáhlých datových zdrojích se příliš ztrácí individualita textů. M. Hug (Štrasburk) se věnoval možné disambiguaci frekventovaných gramatických slov s cílem označkovat velké korpusy francouzštiny (mj. Le Monde CD ROM). Za použití kódovaného korpusu FRANTEXT vypracoval algoritmus vycházející z automatické analýzy bezprostředního okolí daného slova. A. Ureña, M. Buenaga a J. M. Gomez (Madrid) navrhli zefektivnit automatické referování z internetových textů zpřesňováním informací získávaných z kontextu slov. Pracovali s disambiguací i s předvídáním smyslu nových termínů. Navržený postup testovali na korpusech SEMROR a na lexikální databázi WORDNET s úspěšností 92 %. M. Weber, R. Vos a R. H. Baayen (Groningen) upozornili, že při konstrukcích automatického referování se obvykle nepočítá se slovy s frekvencí nižší než 5, ačkoli se tím ztrácí více než 60 % nositelů informace. Na různých jazycích prokázali, že relevantnost informace nesené vzácnými slovy (s výjimkou ryzích hapax legomen) je tak významná, že je třeba jí využívat i přes praktické obtíže. L. Uhlířová (Praha) upozornila, že čistě kombinatorické metody automatického rozpoznávání mluveného jazyka vedou při testování na korpusech k enormnímu nárůstu repertoáru testovaných jednotek. Řešení je třeba hledat v lingvistické oblasti např. zpřesněním automatického rozpoznávání (a značkování) slovních druhů a doplněním informací o slabikách. J. Hlaváčová a P. Savický (Praha) navrhli algoritmus pro automatické zjišťování tzv. vzácnosti slov jako relevantní doplňkové informace k absolutní frekvenci. Sonda provedená na Českém národním korpusu spolehlivě kvantifikuje míru rozšíření, nebo naopak míru výlučnosti daného prvku (nejen slova).

 

K řešení dalších úloh směřují i nové modely.

K.-H. Best (Göttingen) ukázal, že Poissonovo i Fucksovo rozdělení délky slova lze odvodit již z předpokladu o obecné závislosti mezi délkami daného slova a slova, které mu předchází. Současně referoval o göttingenském projektu, jehož cílem je popsat statistická rozdělení různých jazykových jevů v textech (včetně lemmat). E. Leopoldová (Sankt Austin) vyšla ze synergetického pojetí modelů jazyka jako popisů působení protichůdných a souběžných sil. Na základě staršího poznatku, že častější slova jsou kratší, upozornila, že příčinný vztah mezi frekvencí a délkou slova není zcela prozkoumán. Pokusně se proto zaměřila – jako první – na dvojrozměrné rozdělení frekvence a délky. Nalezení interpretovatelné regrese bude věcí dalšího postupu. P. Kunsmann a J. Gordesch (Berlín) vyšli rovněž z pojetí jazyka jako samoregulačního systému. Pravidla pro užívání jazykových jednotek rozčlenili na gramaticky závazná a příznaková a definovali tzv. úplnost pojmu a typy gramatické konstrukce. Nyní pracují na příslušném matematickém modelu. M. Kaunisto (Tampere) vyslovil a dokázal hypotézu o moderních složeninách v angličtině: poměr mezi délkou zkráceného zbytku slova přítomného ve složenině a původní délkou slova je menší u kratších částí složeniny než u částí delších. Jinak řečeno: delší slova se do složenin zkracují výrazněji. V. Kromer (Novosibirsk) navrhl neparametrický model pro rozdělení pořadí významů v případech polysémie. Návrh spočívá v matematickém rozšíření (a tím zkomplikování) Zipfovy formule. Model testoval na výkladových slovnících ruštiny. P. Juola (Pittsburgh) se ve svém druhém příspěvku zabýval mírou komplexnosti (úplnosti), definovanou dosud jako rozsah (délka) nejkratšího počítačového programu, kterým by bylo možno sestavit danou větu. Jako jednodušší definici navrhl užít minimálního řetězce prvků, z něhož lze spolehlivě produkovat prvek následující. A. Polikarpov (Moskva) a D. Khmelev (Cambridge) modelovali tzv. „životní cykly“ jazykových jednotek na úrovni morfémů, lexémů [155]a frazémů z hlediska jejich vývoje v čase. Vyšli z předpokladu o růstu míry abstrakce s frekvencí užití a zvláštní pozornost věnovali polysémii. Budoucí ověření předpokládají na jedenácti textech z evropských a asijských jazyků.

 

V nepřehlédnutelném počtu modelů převládaly pravděpodobnostní přístupy.

M. Oakes (Sheffield) se zabýval počítačovou rekonstrukcí hypotetického slovníku protojazyka pomocí příbuzností automaticky identifikovaných v existujících jazycích dceřiných. Ke konstrukci užil podrobných pravděpodobnostních algoritmů možných změn hláskových a morfémových (např. náhrada t -> k mezi jazyky samoa a hawai). E. I. Sicilia-Garcia, J. Ming a F. J. Smith (Belfast) se zabývali možností předvídání (odhadování) následujících slov (n-gramů) kombinací modelů automatické predikce. Pracovali také s podmíněnými pravděpodobnostmi. D. Khmelev (Cambridge) v samostatném příspěvku navrhl využít studia n-gramů k řešení sporného autorství chápáním posloupnosti písmen jako markovského řetězce a vytvořením matic pravděpodobností přechodů pro každého uvažovaného autora. Autor by pak byl vybírán z více možností hledáním maximálně pravděpodobné podobnosti matic přechodu, tedy v mnohorozměrném stochastickém prostoru. Pro praxi navrhl nahradit nedostupné pravděpodobnosti relativní empirickou entropií, kterou lze určit automaticky. Navržený postup zatím dosáhl spolehlivosti v 69 z 82 případů. S. Th. Gries (Sonderborg) využil kontingenčních tabulek k předvídání při multifaktorové analýze syntaktických variací. Liší-li se věty se stejnou výpovědní hodnotou pouze pořadím slov, nebo podobnou obměnou, vytvářejí syntaktické varianty. K jejich automatickému rozpoznávání je třeba analyzovat východiska a mechanismy jejich konstrukce. Příklon přirozených mluvčích k různým variantám lze předvídat zpracováním multifaktorového kontextu. A. Polikarpov (Moskva) aplikoval Menzerathův-Altmannův zákon na morfematické struktury slov. Vyslovil hypotézu o uplatnitelnosti pravděpodobnostního modelu pro kombinace morfémů v závislosti na jejich pozici ve slově. Y. Narisawa (Tohoku Gakuin) vyšel z poznatku, že adjektivní antonyma se vyskytují v rámci jedné věty častěji, než by odpovídalo zcela náhodnému souvýskytu. Podrobný pravděpodobnostní model úspěšně testoval na korpusu COBUILD CD ROM. R. Köhler (Trevír) a G. Altmann (Bochum) předložili koncept základního funkcionálně-analytického modelu subsystému syntaxe na bázi synergetické lingvistiky. Vycházeli z předpokladu, že komplexita a kompaktnost vyjadřování stojí proti sobě ve vzájemné rovnováze. Pracovali s pojmy jako polyfunkčnost a synfunkčnost a ukázali, že vlastnosti syntaktických konstrukcí lze statisticky popsat několika málo rozděleními z téže rodiny, kam náleží také například rozdělení Waringovo-Herdanovo, původně navržené pro slova.

 

Konečně, v některých příspěvcích buď na okraj jiných sdělení, nebo samostatně se objevily také obecnější úvahy o směřování kvantitativní lingvistiky jako oboru.

P. Meyer (Berlín) v příspěvku poněkud provokativním, ale bohužel pouze psaném, a proto neobhajovaném, varoval před vzdalováním kvantitativních studií od možností přímé interpretace. Podtrhl přitom potřebu respektovat konceptuální souvislosti: konstrukce a výsledek mohou být přesvědčivé, ale invertování konstrukce nemusí vždy vést k interpretovatelným pojmům. Hledání dalších popisů nebude přínosné, dokud nebude jasné, na jakých pojmech jsou postaveny. Lze-li například nějaké stochastické pozorování popsat jako výsledek optimalizačního procesu, není ještě jisté, že pozorovaná situace skutečně vznikla optimalizací volby z některých konkrétních možností. E. Leopoldová vyslovila v již zmíněném referátu jinými slovy stejný požadavek, aby interpretovatelným pojmům odpovídaly nejen cílové proměnné, ale i zpětně indukované výchozí faktory. Týž požadavek vyjádřil jinými slovy také P. Juola, který upozornil, že k popisu fenoménu je vhodné hledat adekvátní prostředky. Jednodušší popis bývá výstižnější a stane-li se základem modelu, je i interpretovatelnější. L. Rychkovová upozornila nejen na odlišnosti, ale rovněž na vzájemné pronikání celých oblastí kvantitativní a korpusové lingvistiky. J. Králík (Praha) navrhl rozčlenit dosavadní proudy v kvantitativní lingvistice (na příkladech prací publikovaných v časopisu Journal of Quantitative Linguistics) do tří skupin na kvantifikující, popisující vztahy a aplikující modely přírodní povahy. Členění je hierarchické a řešení přechodů mezi jednotlivými úrovněmi znamená řešení klíčových otázek sou[156]časné kvantitativní lingvistiky: Přináší zpřesnění modelů hlubší vhled do lingvistické situace, nebo pouze matematickou komplikaci? Lze každou výstižnou algebraickou formuli analyzovat jako pravděpodobnostní model? Vyjadřují pravděpodobnostní modely v lingvistice pouze neskutečnou ideální situaci, nebo jsou průmětem skutečných trendů? Jak interpretovat případy obdoby pravděpodobnostních popisů různých jevů, které vzájemně nijak nesouvisejí?

 

V závěru pražské konference QUALICO 2000, při zasedání IQLA, upozornila L. Uhlířová na vůbec první bibliografii kvantitativní lingvistiky, která vyšla v Utrechtu péčí českého jazykovědce B. Trnky právě před 50 léty (1950) a do určité míry znamenala konstituování kvantitativní lingvistiky jako samostatného oboru (Trnka, B.: A Tentative Bibliography. Publications of the Committee on Linguistic Statistics. Spectrum Publishers, Utrecht – Brussels 1950). V pracovní části zasedání IQLA byli do nového výboru Praze zvoleni S. Embletonová (předsedkyně, Kanada), K. Kageura (místopředseda, Japonsko), R. H. Baayen (generální sekretář, Nizozemí), F. Tweedieová (hospodářka, Velká Británie) a členové P. Juola (USA), R. Köhler (SRN), J. Králík (ČR) a A. Polikarpov (Rusko).

Ústav pro jazyk český AV ČR
Letenská 4, 118 51 Praha 1

Slovo a slovesnost, volume 62 (2001), number 2, pp. 152-156

Previous František Uher: Osmdesát let Přemysla Hausera

Next Markéta Slezáková: Konference o interakční lingvistice v belgickém Spa