Časopis Slovo a slovesnost
en cz

Prague Studies in Mathematical Linguistics I, II

Jozef Mistrík

[Chronicles]

(pdf)

Prague Studies in Mathematical Linguistics I, II / Etudes pragoises de la linguistique mathématique

Exaktné metódy v československej jazykovede nie sú vecou novou. V. Mathesius, B. Trnka, J. Vachek a ďalší už dávno využívali kvantitatívne metódy na verifikovanie výsledkov svojich výskumov a na zdôvodnenie svojich jazykovedných téz. Dnešný živý záujem o matematickú lingvistiku má teda niektoré korene už v prácach, ktoré vyšli dávno z Pražskej školy.

Rozhodnutie vydávať sériu venovanú rozvoju tohto, dnes predsa len moderného odvetvia treba preto privítať. Redaktorom obidvoch citovaných zborníkov[1] (L. Doleželovi, P. Sgallovi, M. Těšitelovej, J. Vachkovi) sa podarilo plynule nadviazať na to, čo sme z kvantitatívnej lingvistiky už poznali, a tvorivo rozvinúť bádanie o algebrický prístup k jazykovým faktom, ako aj vzbudiť záujem o otázky strojového prekladu.

Tematicky, rozsahom, primeranosťou i aktuálnosťou sú zborníky symetrické a sympatické. Čitateľ má dojem, ako by všetci autori boli na jedinom pracovisku. V príspevkoch nieto zbytočných všeobecne známych „zistení“, ale ani takých rozborov, ktoré by neboli zrozumiteľné nematematikom.

V 37 príspevkoch sa najviacej pracuje kvantitatívno-štatistickými metódami (22), relatívne menej, no cieľu primerane algebrickými metódami (11). Niekoľko príspevkov (4) patrí strojovému prekladu. Keby sme uplatnili iné, jazykovedné triediace kritérium, potom by sme konštatovali, že sú tu zastúpené všetky jazykové plány, až po hraničné a susedné disciplíny, ako je napríklad psycholingvistika a poetika. Popri špeciálnych otázkach sa v kontexte riešia aj niektoré nevyhnutné všeobecné veci, najmä rázu metodologického.

V prvou zväzku sa zvýšená pozornosť venuje nižším, v druhom zväzku vyšším plánom. Na seba upozorňuje zvýšený záujem o otázky slovosledu a aktuálneho členenia a pri analýze nižších jednotiek dôsledné zretele k vyšším a nadradeným plánom. Lexikálne rozbory sú sprevádzané štylistickými zreteľmi a morfematické syntaktickými. V mnohých príspevkoch sa verifikujú známe tézy. Za nesporný klad príspevkov treba pokladať bohatstvo v korelovaní numerických údajov.

Prakticky nie je možné v rozsahove obmedzenom príspevku robiť hlbšie konfrontácie so zisteniami v 37 štúdiách, a preto sa obmedzíme iba na ich charakteristiky.

B. Trnka (I, 11) venuje pozornosť distribúcii a frekvencii dlhých samohlások v češtine. V príspevku sa zdôrazňuje, že distribúcia dĺžky súvisí s morfologickou štruktúrou slova i s jeho frekvenciou rovnako, ako podľa Zipfovho zákona dĺžka slova súvisí s jeho frekvenciou. — J. Krámský (I, 17) štatisticky skúma frekvenciu samohláskových foném v 29 textoch o rozsahu 326—836 slov a zisťuje spôsob ich distribúcie. Najvyrovnanejšia podľa neho je distrubúcia v češtine, poľštine a slovenčine (okrem samohlásky u). — L. Doležel a J. Průcha (I, 33) skúmajú zákonitosť kombinácií grafém v češtine a ako ona súvisí s ich relatívnou frekvenciou. Dochádzajú k zisteniu, že možnosť kombinácií grafém v texte závisí od ich frekvencie. — J. Horecký (I, 45) píše o trojčlenných skupinách spoluhlások na začiatku slova v slovenčine. Zaujímavé je zistenie, že spojenie medzi spoluhláskami stojacimi na 1. a 2. mieste je tesnejšie ako medzi spoluhláskami na 2. a 3. mieste. Hierarchia tesnosti spojenia (od najsilnejšieho) je v—V, š—V, z—V, f—V, s—V. — K. Bu[342]zássyová (I, 51) aplikuje fonologický model F. Hararyho a H. H. Papera pri skúmaní dvojkombinácií foném v slovenčine. Zistené výsledky, ukazujúce nielen schopnosť, ale aj častotu stretania, môžu byť podkladom pre získavanie rozličných štatistických údajov o distribúcii foném v slove. — M. Těšitelová (I, 65) sleduje ekonómiu výpovede na základe štatistických zistení o homonýmii slovoform v češtine a čiastočne aj v ruštine. Sloveso alebo jeho spojenie so susednými slovami rozhoduje o homonymných prípadoch substantív vo výpovedi. Homonymné formy majú asymetrickú frekvenciu. — K. Pala (I, 81) skúma otázky aktuálneho členenia vypovede. Vo svojej práci verifikuje tézu, že pre poradie komponentov aktuálneho členenia základný význam má sémantický slovosled. V 1 200 vetách náučno-technického štýlu (učebnica fyziky) zistil výskyt objektívneho poradia v 98,34 % a subjektívneho poradia v 1,66 %. — J. Průcha (I, 93) v článku „Kontextové obmedzenia pri výbere sémantických lexikálnych jednotiek“ skúma súvislosti výberu s dĺžkou kontextu. Jeho výsledky sú v zhode so známou Shannonovou hypotézou o vzťahu medzi dĺžkou kontextu a výberom. Makrokontext podľa neho podmieňuje malý výber sémantických jednotiek, zatiaľ čo mikrokontext pripúšťa veľký výber. — L. Hřebíček (I, 105) sa zaoberá kvantitatívnou analýzou rýmu zakladateľa spisovnej kazazštiny, básnika A. Kunanbayefa, a výsledky porovnáva so stavom v ruštine. — M. Königová (I, 113) píše k otázke štatistického výberu v jazykovede. Reprezentatívny výber sa má uskutočniť tak, aby podával čo najpresnejšiu informáciu o parametroch jazyka. Svoje vývody demonštruje na štatistickom sledovaní frekvencie grafém a bigrafém v češtine.

Zatiaľ čo v časti venovanej štatistickej lingvistike výrazne cítiť lingvistický aspekt, v časti venovanej algebrickej lingvistike sa vo väčšine príspevkov čistota tohto aspektu stráca. Je to z veľkej časti spôsobené aj symbolikou, ktorá je tu náročnejšia a frekventovanejšia. — M. Novotný (I, 125) vychádza z hypotéz O. S. Kulaginovej, V. A. Uspenského a S. Marcusa a rozvíja algebrickú teóriu R-systémov. Všíma si hlavne ich homomorfizmus a členenia. Novotného príspevok je jedným z takých, ktoré sa vzdiaľujú lingvistom. — K. Čulík (I, 141) sa pokúša definovať pravidlá vlastnej „ξ-gramatiky“, ktorými by bolo možno generovať súbory jednoduchých viet prirodzeného jazyka. — P. Novák (I, 155) má drobnú poznámku o aplikácii matematických modelov v jazykovednom systéme. Dotýka sa v nej vzťahu matematického modelu a lingvistického objektu. Nezhoda, ako hovorí, tu môže viesť k väčšej aproximácii objektu alebo k jeho charakterizácii. Novákov príspevok je rázu metodologického. — L. Uhlířová (I, 159) sa zaoberá otázkami slovosledu v kategoriálnej a transformačnej gramatike. Svoje vývody opiera o výsledky výskumu 100 českých viet. Vo svojej práci verifikuje Mathesiusove a Firbasove zistenia o poradí východiska a jadra vo výpovedi. Je to skôr úvaha vedená na základe skromného výskumného materiálu. — J. Jelínek (I, 167) sústreďuje pozornosť na triedy konštruktov a rozvádza vlastný spôsob na ich analýzu.

Strojovému prekladu sa v tejto knihe venujú iba tri príspevky. V prvom z nich D. Konečná, P. Novák a P. Sgall (I, 185) informujú o prípravách prekladacieho stroja na Karlovej univerzite v Prahe. Prehľadne uvádzajú hlavné črty druhého experimentu (comp. Epos I). — P. Piťha (I, 195) v štúdii „K problému priraďovacích spojok pri analýze češtiny“ ukazuje na situáciu, ktorú vyvoláva viacvýznamovosť týchto slov pri strojových prekladoch. — J. Panevová (I, 219) obracia pozornosť na nezhodný prívlastok v súvislosti so strojovým prekladom. Pri prekladaní náučno-vedeckých textov sú ťažkosti hlavne pre neprehľadnosť vzťahov v syntagme — ťažko sa vyjadrí, či problematický výraz je nezhodným prívlastkom, či predmetom alebo príslovkovým určením.

Druhý zväzok je v pravom zmysle slova organickým pokračovaním prvého zväzku — rozsahom, vyrovnanosťou príspevkov aj hĺbkou analýz. J. Horecký (II, 9) v ňom podáva číselné charakteristiky morfematických štruktúr. Študuje [343]mieru využívania morfém v slovenčine, možnosti a spôsoby stretania sa morfém. Využíva na to teóriu grafov a v opise aj numerický aparát. — L. Dušková a V. Urbanová (II, 19) rozoberajú frekvenciu časov z hľadiska vyučovania angličtiny ako cudzieho jazyka. Spracúvajú text o rozsahu 24 000 slov. Sledujú nielen frekvenciu tvarov, ale aj modálnych adverbií (angličtina = analytický jazyk), ktoré „robia“ časy. — L. Uhlířová (II, 37) sa aj v tomto zväzku zaoberá slovosledom. Skúma tendencie, ktoré sú charakteristické pre postavenie priameho predmetu vo vedeckom štýle v češtine. V súbore o rozsahu 900 viet zistila, že podľa frekvencie sú najčastejšie takéto slovosledné schémy (P = prísudok, S = podmet, O = predmet): PO, SPO; OP, OPS, POS; PSO. V 48 % prípadov stojí P pri O, v 25 % prípadov sú P a O oddelené jedným slovom a z 1 731 prípadov len 12 bolo takých, že P od O bolo oddelené desiatimi slovami. — K. Pala (II, 51) sa venuje vzťahu medzi gramatickým slovosledom a aktuálnym členením v češtine. Pozoruje 1 305 viet (segmentovaním získaných 2 972 jednoduchých viet) náučnotechnického textu. Verifikuje slovosledné faktory vyslovené V. Mathesiusom a zisťuje, že samotné vetné členy vchádzajú do komponentov aktuálneho členenia s určitou pravdepodobnosťou. Tento príspevok vhodne nadväzuje na príspevok z prvého zväzku. — J. Průcha (II, 65) má príspevok o distribúcii slovných druhov z psycholingvistického hľadiska. Zisťuje, že české výpovede o istej fixnej dĺžke možno charakterizovať frekvenčnou distribúciou slovných druhov. V príspevku skúma poradie syntaktického substantíva, syntaktického adjektíva, syntaktického adverbia vo výpovediach všetkých možných dĺžok, a to pri objektívnom i subjektívnom členení výpovede. — J. Kraus a P. Vašák (II, 77) venujú pozornosť kvantitatívnej typológii textov. Skúmajú 8 textov rozličných štýlov o rozsahu po 250 viet. — J. Krámský sa zaoberá frekvenciou členov v angličtine z hľadiska štylistického. Rozdielna, a teda štylisticky relevantná, je frekvencia určitého člena; napríklad medzi beletristickým a technickým textom oproti publicistickému textu je diferencia až do výšky 5—6 %. Medzi tými istými štýlmi diferencia vo frekvencii neurčitého člena je iba 0,3 %. Odporúča zisťovať aj frekvenciu členov v nemčine — hlavne kvôli verifikácii svojho zistenia. — L. Doležel (II, 97) sa zamýšľa nad otázkou, ktoré sú špecifické črty umeleckého textu a umeleckého jazyka vo všeobecnosti oproti bežnému, čisto komunikatívnemu textu. A ďalej nad tým, či je vôbec možné nájsť a opísať exaktne štrukturálne črty, ktorými by bolo možné tieto rozdiely vyjadriť. — M. Červenka a K. Sgallová (II, 105) tu podávajú probabilitný model českého verša. Nedostatok príspevkov z tejto tematiky svedčí o tom, že v oblasti teórie verša sa u nás zatiaľ s týmito metódami nepracuje tak intenzívne, ako v jazykovede. — M. Těšitelová (II, 121) na 6 textoch o rozsahu 180 000 slov (texty sú zo súboru textov českého frekvenčného slovníka) demonštruje úlohu substantíva pri sémantike výpovede. Zistenú frekvenciu porovnáva s frekvenciou vo frekvenčnom slovníku, skúma a koreluje kumulatívne frekvencie, relatívne frekvencie, diferencie v kumulatívnych frekvenciách, počet rozličných substantív, počet významov, počet proprií (ktorý je vyšší v literatúre fiction ako v non fiction) atď. — M. Königová (II, 141) má tu článok o meraní závislosti jazykových elementov, v ktorom ukazuje všeobecnú charakterizáciu rozličných mier štatistických závislostí a vypočítava charakteristiky takýchto mier. — J. Kraus a J. Polák (II, 155) venujú pozornosť štatistickej analýze textu. Skúmajú 8 textov po 250 viet a v nich hlavne frekvenciu slovných druhov, tvarov slov, dĺžku viet. Dokazujú, že iba niektoré javy môžu byť štýlovými charakteristikami v texte.

Algebrická lingvistika je v tomto zborníku bohatšia ako v prvom — rozsahom i hĺbkou spracovania. K nej je priradená aj problematika strojového prekladu. N. Savický (II, 175) dokazuje, že absolútna formalizácia a úplný exaktný opis jazyka vlastne neexistuje. — L. Nebeský (II, 179) hovorí k pojmu kontext a konfrontuje svoje tézy s O. S. Kula[344]ginovou, S. Marcusom a P. L. Dobrušinom. — O. Sechser (II, 187) upozorňuje na problémy segmentácie slov na morfémy v prirodzených i umelých jazykoch. Reláciu medzi formou a významom vidí ako probabilistickú. Reviduje tradičné názory na tieto otázky a načrtáva úlohy dynamickej morfológie. — P. Sgall (II, 203) nadväzuje na V. Mathesiusa, J. Firbasa, P. Nováka a F. Daneša a usiluje sa o generatívny opis funkčnej perspektívy vety (FPV). Zamýšľa sa nad pojmom výpoveď, nad vzťahom FPV k častiam vety, FPV k emfáze, k sémantike a potom podáva vlastný opis javu doložený analýzou konkrétneho príkladu z češtiny. — J. Panevová (II, 227) nadväzuje na P. Sgalla a preveruje schopnosť generatívneho opisu jazyka na osvojenie si gramatickej synonymie z hľadiska jazykového i formálneho. — K. Čulík (II, 245) uverejňuje prednášku o strojovom preklade so zreteľom k vete, ktorú predniesol r. 1965 na medzinárodnej konferencii v New Yorku. V nej analyzuje otázku prekladu „od slova do slova“, otázku syntaktickej a sémantickej charakteristiky slova, otázku jednoduchých a zložených viet a nakoniec otázku sémantických závislostí a vzťahov pri strojovom preklade.

Obidva recenzované zväzky sú nielen výrazným svedectvom o prudkom rozvoji moderných metód v našej jazykovede, ale aj prísľubom rozvoja na tomto poli v budúcnosti. Ukazuje sa, že československá jazykoveda drží krok s najprogresívnejšími jazykovedami. Je to o to chvályhodnejšie, že tu nejde o import v celom rozsahu, ale že to, čo sa dnes označuje za moderné, pestovalo sa u nás — ako sme to povedali na začiatku — v istej podobe a primeranom rozsahu aj predtým.


[1] I Prague 1966, II Prague 1967, Academia, Publishing House of the Czechoslovak Academy of Sciences, 240 pp. + 259 pp.

Slovo a slovesnost, volume 29 (1968), number 3, pp. 341-344

Previous Ján Horecký, Vladimír Šmilauer: O tvoření slov v češtině

Next rd (= Redakce): O čs. lingvistických publikacích k sjezdu slavistů