Časopis Slovo a slovesnost
en cz

O minském sborníku „Statistika teksta“

Jan Králík

[Kronika]

(pdf)

О минском сборнике «Статистика текста» / Sur le recueil de Minsk «Statistika texta»

Práce, které vznikly v semináři o obecných problémech jazykovědy a statistickolingvistických výzkumných metod, konaném v Minsku v l. 1968—1969, vyšly jako rozsáhlý sborník pod názvem Statistika teksta - sbornik statej, sv. I, red. R. G. Piotrovskij, Minsk 1969, 567 s.; sv. II, red. A. I. Kiselevskij, Minsk 1970, 652 s.

První díl sborníku je rozdělen do tří částí: prvá se zabývá problémy statistickolingvistických výzkumů, druhá přípravou textů pro statistické zpracování na samočinných počítačích a třetí frekvenčními seznamy slovních tvarů a spojení.

V prvé části se soustřeďují práce pojednávající převážně o obecných problémech kvantitativní lingvistiky. Některé teoretické i praktické otázky lexikální statistiky (rozsah a typologie výběru, paradigmatické a syntaktické kvantitativní charakteristiky lingvistických jednotek aj.) se probírají v úvodním článku P. M. Aleksejeva (s. 12—37). Čtyři následující stati se zabývají problémem výběru textů pro speciální frekvenční slovníky, otázkami reprezentativnosti dat a ověřováním jejich věrohodnosti. N. A. Bogoslovskaja (s. 55—86) uvádí přehled běžných i speciálních odhadů pro pravděpodobnosti výskytů lingvistických jevů. Předpoklad o binomickém rozdělení výskytů dovádí až k limitnímu případu rozdělení Poissonova, ale sám problém aproximace pravděpodobností výskytů považuje za dosud otevřený. L. E. Maškinová (s. 87—115) ověřuje teoretickou reprezentativnost výběru na dvou rovinách, jednak vzhledem k statistické struktuře textu, jednak pro frekvence lingvistických jevů. Podrobnou teorii provází příkladem ověření reprezentativnosti výběru trojprvkových spojení, tzv. triád (za samostatný prvek se vedle slova považuje i interpunkční znaménko), z německých textů s politickou tematikou. V. V. Morozenko (s. 38—54) se zabývá problémem výběru textů pro účely kvantitativní lingvistiky. Vychází z požadavku pravděpodobnostně chápané homogenity textů. Z pěti různých druhů výběrů volí dvoustupňovou variantu typového výběru a doplňuje ji příkladem výběru anglických ekonometrických textů. O. A. Nechaj (s. 116—130) rozebírá problematiku rozsahu a typu výběrů pro případ triád s opěrnými slovy (jádry) o vysoké frekvenci. Tři jiné články se zabývají teorií a rozborem statistických zákonů rozložení frekvencí jazykových jednotek; základ tvoří stať K. B. Bektajeva a kol. (s. 131—162), v níž autoři vycházejí z hypotézy, že počet výskytů triády má Poissonovo rozdělení, a ověřují ji pěti různými testy. Speciální fonologický model pro určení hranic mezi přízvučným a nepřízvučným vokálem v ruštině vypracovává V. N. Ignatova (s. 200—205) a ověřuje jej pro leningradskou výslovnost. A. S. Rotar’ (s. 163—199) zkoumá typ statistického rozložení (Poissonova) frekvencí slovních tvarů. Do závěru prvé části prvního dílu sborníku je zařazen článek G. F. Mal’cevové (s. 206—248) o způsobech řešení sporného autorství metodami kvantitativní lingvistiky. Autorka vychází z 22 číselných charakteristik textu a užívá [379]aparátu mnohorozměrné statistické analýzy. Rozbor korelačních vztahů obrací její pozornost k oblasti lexikální a morfologické. S. V. Jastrebová a R. G. Piotrovskij (s. 249—259) uvažují o pojetí termínu z hlediska statistického a G. P. Boguslavská (s. 260—270) rozebírá informačně statistickou problematiku analytických jevů v angličtině.

Druhá část prvního dílu sborníku obsahuje obecný úvod do teorie formulace záznamu na děrnou pásku počítače Minsk 22. Autoři Z. S. Gajdukova a K. F. Luk’janenkov (s. 273—286) uvádějí mimo jiné i přehledný univerzální kód pro azbuku a pro latinku. T. V. Kozovaja (s. 363—369) podává konkrétní příklady kódů respektujících homografii v angličtině a V. A. Bukovič (s. 287—297) speciální kód pro užití diakritických znamének v angličtině, francouzštině, němčině a španělštině. V článku V. A. Mal’cevové a O. A. Nechaje (s. 298—362) se podrobně rozpracovává speciální teorie čtyřstupňové klasifikace morfologickosyntaktických charakteristik (slovní tvar, syntaktická funkce, typ věty ap.). Autorka návrhu minimálního systému indexů D. D. Davydova (s. 370—373) přihlíží k specifice morfologických, lexikálních a funkčních aspektů.

Třetí — nejobsáhlejší — část prvního dílu sborníku přináší konkrétní frekvenční seznamy slovních tvarů a spojení. Často se objevují výzkumy triád v odborném stylu. Za jádra triád pokládají A. D. Borisevič a V. A. Sorkina substantiva, V. A. Nozdrina adjektiva, L. I. Belocerkovskaja a M. V. Danejko slovesa. Pouze ve dvou případech není slovní druh blíže specifikován. Jádrem trojprvkového (v Danejkově článku ojediněle čtyřprvkového) spojení jsou však vždy v článcích uvedených autorů slova, resp. slovní tvary v příslušném oboru nejfrekventovanější. Výzkumy byly prováděny vesměs na odborných textech a v podobě frekvenčních seznamů jsou určeny k rychlé orientaci zvláště v cizojazyčné terminologii. Vedle materiálu ruského, který zpracovávají L. I. Belocerkovskaja, N. S. Bulaševa a N. Isabekova, je pečlivě studován zvláště materiál v americké angličtině, s nímž pracuje většina autorů, dále materiál německý (A. G. Bajer aj.), kazašský (A. A. Achabajev) a texty španělské. Jde převážně o odborné texty z oboru radioelektroniky, stavebních materiálů, fyzikální chemie a o texty publicistické s politickou tematiku. Rozbor frekvenčních seznamů triád doplňují A. A. Čižakovskij a M. E. Veksel’man (s. 434—440) formulací základních statistických zákonitostí funkce substantiv a jmenných skupin. V. V. Gončarenko a O. A. Nechaj (s. 524—533) uvádějí pojednání o statistice druhů vět a souvětí, které doplňují rozborem otázek reprezentativnosti rozsahu zkoumaného materiálu.

V druhém dílu sborníku jsou soustředěny práce zabývající se problémy automatického zpracovávání textu jako přípravné etapy pro účely strojového překladu. Stručný přehled o zkušenostech z automatického zpracování textů předkládá v úvodní stati R. G. Piotrovskij (s. 5—32), který rozvádí i svou zajímavou úvahu o paměťové kapacitě lidského mozku ve srovnání s paměťovou kapacitou počítače.

Stěžejní prací druhého dílu sborníku je obsáhlý článek kolektivu deseti autorů (mj. V. S. Krisevič, O. A. Nechaj, R. G. Piotrovskij; s. 331—614) zabývající se strukturou dvojjazyčného strojového slovníku typu „slovoforma-slovoforma“ a kódem dvojstupňové klasifikace tvarů slov. V obsáhlých tabulkách jsou uvedeny příklady kódu obecných i konkrétních informací o různých slovních druzích a o jednotlivých tvarech slov pro strojový překlad z angličtiny do ruštiny. V. S. Krisevič se ve svých dvou článcích (s. 312—320, 321—330) zabývá automatickým hledáním dané informace na jednotkách zakódovaného textu a sestavením dvojjazyčného slovníku pro účely strojového překladu.

Většina dalších článků je věnována sestavení algoritmů pro různé druhy automatického zpracování textů, např. Ju. G. Prijmov a V. A. Sorkina (s. 189—214) rozebírají problém klasifikace jmenných skupin, M. V. Danejko a V. M. Petrovskaja (s. 215—231) předkládají al[380]goritmus pro automatickou analýzu syntaktické struktury věty a vnitřních vztahů jejích členů, A. A. Piotrovskaja a N. A. Richter (s. 232—266) algoritmus pro syntézu tvarů nedokonavých sloves v ruštině, V. A. Vertel’ a E. V. Vertel’ (s. 290—311) efektivní algoritmus pro sestavení frekvenčního slovníku německých tvarů slov se zřetelem k jejich délce, A. V. Zubov a A. N. Šaranda (s. 267—289) algoritmus pro překlad německých předložkových spojení do ruštiny. A. N. Šaranda (s. 33—153) navrhuje systém pro automatický výzkum tzv. mikrokontextů, se zaměřením na mnohoznačnost lingvistických jednotek.

Tři články mají zvláštní charakter: L. V. Malachovskij (s. 173—188) řeší problém informace obsažené v nepísmenových a současně neinterpunkčních grafických znacích v angličtině, S. V. Jastrebová (s. 615—640) uvádí abecední seznam 1416 nejfrekventovanějších anglických slov z různých funkčních stylů a A. D. Borisevič (s. 641—652) abecední seznam 503 anglických slovních spojení, pro něž neexistuje doslovný ruský ekvivalent. Druhý díl sborníku tak předkládá některé výsledky kvantitativního rozboru lingvistických jevů motivovaného strojovým překladem do ruštiny.

Oba díly sborníku podávají dobrý přehled metod a výsledků zejména v kvantitativní lingvistice a při strojovém zpracování jazykového materiálu v SSSR.

Slovo a slovesnost, ročník 32 (1971), číslo 4, s. 378-380

Předchozí Anna Šourková, Jiřina Zajíčková: Maďarský lingvista o jazykové interferenci při učení cizímu jazyku

Následující Jiří Šulc: Sovětská kniha o lingvistice ve vojenství