Časopis Slovo a slovesnost
en cz

Korpusy ruského jazyka v Rusku

Kateřina Marková

[Recenze]

(pdf)

Korpusy ruského jazyka v Rusku

0. V posledních letech vyšlo ve Slově a slovesnosti několik příspěvků, které českou lingvistickou veřejnost seznamují s fungujícími i projektovanými korpusy několika slovanských jazyků – slovinštiny, chorvatštiny a polštiny. Na ně bych ráda navázala příspěvkem věnovaným korpusům ruského jazyka, které byly či jsou vytvářeny ruskými lingvisty. V souvislosti s radikálními změnami, jimiž od počátku 90. let ruská společnost prochází, se ve zcela nových podmínkách ocitá také ruská věda, lingvistiku nevyjímaje. Vedle vědeckých institucí známých z dob Sovětského svazu vznikají instituce nové, nové univerzity a vědecká centra, která se věnují vlastnímu výzkumu často nezávisle na institucích centrálních. Tato roztříštěnost, navíc komplikovaná pověstnými ruskými vzdálenostmi, spolu s chronickým nedostatkem finančních prostředků představují závažné překážky pro realizaci velkých („celonárodních“) a dlouhodobých projektů. Vzhledem k tomu, že do značné míry rovněž vázne komunikace mezi jednotlivými vědeckými pracovišti, je poměrně obtížné získat ucelený přehled o tom, jak se daný obor rozvíjí v celém Rusku – např. lingvisté z Moskvy a ze Sibiře toho o sobě vědí poměrně málo. Proto ani tento příspěvek si neklade za cíl podat vyčerpávající přehled ruských korpusových projektů, ale nabízí pouze částečný vhled do dané problematiky na základě informací, které se mi podařilo zjistit během mého studijního pobytu v Moskvě a prostřednictvím internetu.

V Rusku bohužel dosud neexistuje korpus moderní ruštiny, který by byl svou reprezentativností, rozsahem a lingvistickým zpracováním srovnatelný s Českým národním korpusem, třebaže počítačová lingvistika má v Rusku poměrně dlouhou tradici: např. v 80. letech byly v Oddělení automatického zpracování jazyka při Ústavu ruského jazyka Ruské akademie věd (Mašinnyj fond russkogo jazyka) pod vedením V. M. Andrjuščenka budovány počítačově zpracované databáze ruštiny.[1] V současné době v Rusku existuje několik dílčích, specializovaných korpusů menší velikosti, z nichž některé [149]jsou veřejně přístupné na internetu; na tvorbě centrálního korpusu současné ruštiny se pracuje. Nejznámějším a nejaktivněji používaným projektem korpusového zpracování ruštiny zatím stále zůstává korpus vytvořený na Uppsalské univerzitě (http://heckel.sfb.uni-tuebingen.de/cgi-bin/korkoi8.pl, http://www.sfb441.uni-tuebingen.de/b1/rus/korpora.html).

 

1. Elektronické konkordance děl jednoho autora

Na ruském internetu jsou veřejně přístupné dva miniaturní „korpusy“, jakési elektronické „sebrané spisy“ A. S. Gribojedova a F. M. Dostojevského, v různé míře lingvisticky zpracované. Tyto korpusy mají především usnadnit práci s konkordancemi děl daných autorů, jsou tudíž určeny převážně textologům, literárním vědcům a historikům a lingvistům zabývajícím se ruštinou 19. století. To platí zejména o konkordancích F. M. Dostojevského, které respektují pravopisné zvláštnosti dané epochy i samotného autora. Text je barevně rozlišen podle toho, zda se jedná o řeč autora (tj. samotného Dostojevského), řeč vypravěče nebo řeč hrdinů. Pro potřeby lingvistiky je naopak lépe uzpůsoben korpus děl A. S. Gribojedova, který je lemmatizován a morfologicky označkován. Věnujme se nyní podrobnějšímu popisu obou korpusů.

Korpus děl A. S. Gribojedova nalezneme na internetové stránce www.inforeg.ru/concord/index.htm pod názvem Slovník jazyka A. S. Gribojedova (Slovar’ jazyka A. S. Gribojedova). Slovník byl vytvořen ve vědeckém centru Informregistr ve spolupráci s Ústavem světové literatury A. M. Gorkého, autorem projektu je A. J. Poljakov. Korpus o velikosti více než 120 000 slovních výskytů a přibližně 12 000 lemmat obsahuje všechna známá díla a korespondenci A. S. Gribojedova, je lemmatizován a morfologicky označkován. Konkordance se zobrazují v kontextu 5 slov zprava a 5 slov zleva. Každá konkordance je opatřena informací o zdroji – tj. z kterého díla, dějství, kapitoly apod. pochází. Pokud uživatel potřebuje širší kontext, může kliknutím na zdrojový odkaz přejít na odpovídající místo v korpusu textů a příslušný kontext studovat v neomezené šíři. Dotaz je možné zadávat formou lemmatu, slovních segmentů (např. všechna slova obsahující element -les-) nebo morfologických kategorií (např. všechny imperativy dokonavých sloves 2. os. sg.). Uživatel může také volit, zda má být daný dotaz vyhledáván v celém korpusu textů, nebo jen v některých Gribojedovových dílech, a to v kterých. Vyhodnocením dotazu je výčet konkordancí uspořádaných podle lemmat, v rámci lemmatu pak podle morfologických forem. Lemmata i slovní formy, které byly předmětem dotazu, jsou opatřeny gramatickou informací, u slov méně známých, zastaralých apod. je rovněž uveden sémantický výklad. Tak například zadá-li uživatel dotaz na všechna slova obsahující element -les-, vyhodnocené konkordance budou uspořádány jednak podle lemmat v abecedním pořadí (nejdříve lemma bezlesnyj, poté blesk, blesnuť atd.), v rámci jednotlivých lemmat pak podle gramatických forem (u lemmatu blesk budou nejdříve všechny výskyty v Nom.sg., poté v Ak.sg., Gen.sg. atd.). Korpus je doplněn abecedním slovníkem všech lemmat a slovních forem, frekvenčním slovníkem a retrográdním slovníkem.

Konkordance k dílům F. M. Dostojevského byly vytvořeny pod vedením V. N. Zacharova na Petrozavodské státní univerzitě a jsou umístěny na stránce www.karelia.ru/~[150]Dostojevsky/main.htm. Konkordance F. M. Dostojevského jsou co do lingvistického zpracování jednodušší (nejsou lemmatizovány ani morfologicky značeny), obsahují však, jak již bylo řečeno, jiné informace cenné pro textologický výzkum, studium ruštiny 19. století či autorova idiolektu. Tato skutečnost souvisí s tím, že konkordance byly vypracovány jako doprovodný projekt k vydání původní autorské verze Dostojevského děl, tj. verze, která mj. bere v úvahu i autorův pravopis. Jedná se tedy o projekt v prvé řadě textologický.

Na rozdíl od Slovníku A. S. Gribojedova nejsou texty F. M. Dostojevského spojeny do jednoho korpusu – uživatel vždy sám volí, v kterém konkrétním díle má být jeho dotaz vyhledáván. K dispozici jsou dva seznamy děl: abecední a chronologický. Po zvolení určitého díla se otevře okno s abecedou, kde jsou pod každým písmenem vypsány v abecedním pořadí všechny slovní formy, které se ve zvoleném díle vyskytují. Každá slovní forma je opatřena údajem o frekvenci. Po zvolení formy se zobrazí všechny kontexty, v nichž se požadovaná forma v daném díle vyskytuje. Kontext konkordance je poměrně rozsáhlý, ale dále už ho nelze rozšiřovat.

 

2. Korpus publicistických textů

V Laboratoři komputační lexikologie a lexikografie na Filologické fakultě Moskevské státní univerzity byl pod vedením A. A. Polikarpova od 90. let vytvářen korpus publicistických textů. V současné době má velikost 10 milionů slovních výskytů a obsahuje celá čísla několika (řádově jedné desítky) ruských novin za rok 1997. Při výběru titulů bylo dbáno na co největší různorodost co do politické orientace, periodicity, odborného zaměření nebo územního rozšíření tisku – jsou tu zastoupeny např. Nezavisimaja gazeta, Moskovskije novosti, Novaja gazeta, AiF, Zavtra, Pravda, Pravda-5, Literaturnaja gazeta aj. Korpus je zpracováván softwarem Diktum-1 vytvořeným v Laboratoři komputační lexikologie a lexikografie MGU, jehož prostřednictvím jsou texty a korpusové jednotky automaticky a poloautomaticky značeny různými typy značek: texty jsou opatřeny informací o zdroji, velikosti textu, žánru, datu vydání atd., slovním výskytům jsou přiřazována lemmata a morfologické a morfematické značky.

V rámci korpusu byl vyčleněn tzv. „jádrový korpus“ o velikosti 1,3 milionu slovních výskytů, na němž se nejdůsledněji aplikují různé metody lingvistického zpracování. Na jádrovém korpusu byl například vypracován systém žánrové klasifikace publicistických textů; touto metodou zde bylo zjištěno celkem 398 různých žánrů, jejichž zobecnění vedlo ke stanovení osmi tzv. typizovaných žánrů: žánry informativní, publicistické, informativně publicistické, literárně publicistické, literární, reklamní, administrativní a ostatní. Pro jádrový korpus byl také sestaven frekvenční slovník lemmat, slovních výskytů a slovních kořenů. Korpus není přístupný na internetu, o práci Laboratoře komputační lexikologie a lexikografie MGU se však lze informovat na stránkách www.humlang.newmail.ru nebo www.philol.msu.ru.

 

3. Projekt Korpus CDL-MGU

Absence velkého reprezentativního korpusu současné ruštiny je nedostatek, který stále znatelněji pociťují rusisté po celém světě. Toto bílé místo by měl důstojně zaplnit [151]korpus vytvářený od roku 2001 v rámci projektu Korpus CLD-MGU. Na realizaci projektu se podílí celá řada ruských vědeckých a informačních organizací: Centrum pro lingvistickou dokumentaci (CLD) při Moskevském centru kontinuálního matematického vzdělávání (V. A. Plungjan), Katedra teoretické a aplikované lingvistiky MGU (S. J. Toldova, D. V. Sičinava), mediální internetová společnost Yandex (I. V. Segalovič, V. A. Titov), vědecké centrum Informregistr (A. J. Poljakov) a od roku 2002 rovněž Oddělení vědeckých výzkumů Ruského ústavu vědeckých a technických informací (vedoucí oddělení J. V. Rachilina). Cílem projektu je vybudovat korpus písemných textů současné ruštiny, který by odrážel jazykovou kompetenci průměrně vzdělaného mluvčího (odtud pracovní název korpusu Ruský standard). V korpusu by neměly být texty, které běžný úzus záměrně narušují stylistickými či lexikálními experimenty (tedy spisovatelé jako Zoščenko, Platonov apod.), a naopak by do něj měly být zařazeny texty spisovatelů z uměleckého hlediska třeba druhořadých, ale píšících jazykem víceméně „neutrálním“ (Trifonov, Rybakov). Rovněž by tu měla být zastoupena literatura zábavná, např. detektivky, ženské romány apod. Publicistika se zatím nezpracovává, ale výhledově se počítá s tím, že buď bude korpus o publicistické texty rozšířen, nebo bude spojen s jiným korpusem tvořeným výhradně publicistickými texty.

Literární texty jsou pro korpus CLD-MGU získávány především z internetu, kde jich je uloženo ohromné množství. Na ruském internetu existuje několik rozsáhlých textových knihoven, které shromažďují literární, odborné i publicistické texty a jsou pravidelně doplňovány a aktualizovány. Ruskou beletrii lze nalézt např. na stránkách: www.lib.ru (Biblioteka Maksima Maškova), www.textshare.da.ru (Obščij tekst), www.russiantext.com (Russkij tekst), www.klassika.ru, www.divanchik.net, www.infoart.ru (Žurnaľnyj zal). Zdálo by se, že není nic jednoduššího než z této takřka bezedné studnice čerpat. Ukázalo se však, že k přejímání textů z internetových knihoven je třeba přistupovat se značnou ostražitostí, neboť texty obsahují mnoho pravopisných chyb a nemají jednotný formát. Nové texty se do knihoven často dostávají od uživatelů internetu, kteří je sami skenují a nevěnují opravě chyb dostatek pozornosti.

Stávající korpus (zatím pouze beletrie) je morfologicky a syntakticky značkován. Cílem syntaktického značkování, které se provádí automaticky, současně se značkováním morfologickým, je vymezit hranice klauzí a větných složek, a rovněž určit typ složky (jmenná, slovesná apod.). Automatický syntaktický parsing není ručně opravován, proto korpus obsahuje jisté procento chybně označených syntaktických složek. Morfologické značkování probíhá ve třech etapách: automatické značkování, filtrování a desambiguace. V první fázi je korpus označkován pomocí programu MYSTEM, vytvořeného I. V. Segalovičem a V. A. Titovem. MYSTEM je napsán v prostředí Linux, umožňuje však i práci v prostředí Microsoft Windows; základem programu je algoritmus Gramatického slovníku A. A. Zalizňaka.[2] Program MYSTEM přiřadí každému slovnímu výskytu v korpusu všechny morfologické interpretace, které jsou pro danou formu myslitelné bez ohledu na kontext a zároveň provádí syntaktický parsing.

[152]Následuje fáze filtrování, během níž jsou odstraněny morfologické interpretace, jejichž pravděpodobnost je téměř nulová (např. interpretace řetězce znaků pri jako imperativu slovesa pereť nebo tvarů substantiva prja), jsou spojeny některé homonymní formy (např. poka je dále značeno jako příslovce, ačkoli z hlediska syntaktické funkce může fungovat i jako spojka) a interpretace, které jsou v rozporu se syntaktickým okolím, jsou označeny otazníkem (např. je-li tvar šosse po předložce po interpretován jako nominativ). Pro filtrování se používá filtr GRAMBAT napsaný A. J. Poljakovem v jazyce Perl.

V konečné fázi probíhá desambiguace, prováděná ručně nebo poloautomaticky za pomoci programu GRAMEDIT, jehož autorem je A. J. Poljakov. Výsledky všech tří etap značkování jsou archivovány.

Počítá se s tím, že korpus bude přístupný na internetu. Na vytváření vhodného uživatelského prostředí pracují programátoři společnosti Yandex. Uživatelské prostředí korpusu by mělo umožňovat jednak prosté pročítání textu (jako v elektronické knihovně) a jednak vyhledávání dotazů. Při pročítání by uživatel mohl přecházet mezi dvěma režimy zobrazení textu – neoznačkovaným nebo označkovaným textem. Vyhledávání by mělo být umožněno podle následujících parametrů:

– slovní tvar (bol’šogo)

– lemma (bol’šoj – vyhledá bol’šogo, bol’šomu, bol’šich …)

– morfologické kategorie („všechna adjektiva v dativu singuláru mužského rodu“)

– absolutní či relativní lineární pozice vzhledem k jinému lemmatu/slovnímu tvaru („všechny kontexty, v nichž slovo začínající na ras- bezprostředně následuje po lexému slegka“)

– lineární pozice ve větě („všechny výskyty i na začátku věty“)

– počet výskytů ve větě/v odstavci

– datace a typ textu („kontexty z beletrie druhé poloviny 19. století)

Dotaz by mohl být sestavován rovněž kombinací uvedených parametrů (např. „spojení předložky v se substantivem v lokálu na -u“), mělo by být možné používat logické operátory A, NEBO, NE a speciální symboly * a ? (libovolný řetězec znaků, libovolný znak). Uživatel by také mohl volit formu vyhodnocení dotazu (šíře kontextu, počet zobrazených kontextů apod.). Příkladem již fungujícího ruského korpusu s uživatelským prostředím podobného typu je již zmiňovaný Slovník jazyka A. S. Gribojedova. Rozvoj projektu Korpus CLD-MGU lze sledovat na stránkách http://corpora.yandex.ru.

Korpus CLD-MGU je pouze jedním z řady projektů Centra pro lingvistickou dokumentaci. V plánu je např. vytvoření korpusu (písemných i ústních textů) ohrožených jazyků a jazyků minoritních národů Ruské federace (ketština, jukagirština, vepština, dagestánské jazyky atd.), vytváření elektronických databází ruských dialektů a staroruských textů a rovněž databází zaměřených na řešení speciálních lingvistických problémů: tezaurus ruštiny, slovesné kategorie v typologicky různorodých jazycích, lexikální prostředky vyjadřující prostorovou orientaci v typologicky různorodých jazycích atd. O těchto a dalších aktivitách Centra pro lingvistickou dokumentaci se lze informovat na stránkách www.mccme.ru/ling.

 

[153]4. Fonetické korpusy

Na vytváření fonetických databází a korpusů se v Rusku podílejí především lingvisté petrohradští a moskevští. Zatímco v Moskvě se převážně zpracovává zvuková podoba současného moskevského dialektu (tedy dialektu dominujícího a expandujícího), lingvisté z Petrohradské státní univerzity (L. V. Bondarko aj.) se zaměřují na budování fonetických databází rozličných ruských dialektů. Jako materiál pro dialektologické korpusy slouží nahrávky ústní lidové slovesnosti nasbírané v etnografických expedicích. Petrohradští fonetikové pracují také na vytváření fonetické databáze jazyka jidiš. Tento projekt je podporovaný holandskou vědeckou nadací a jeho cílem je zpracovat nahrávky jidiš pořízené na začátku 20. století a archivované v petrohradských vědeckých ústavech.

V letech 1996–1998 byl v Ústavu systémové analýzy Ruské akademie věd (ÚSA RAV) vytvořen fonetický korpus ruštiny ISABASE. Jednalo se o experimentální projekt, jehož cílem bylo vybudovat dostatečně širokou a lingvisticky zpracovanou akusticko-fonetickou databázi, která by sloužila jako základ pro nejrůznější fonetické výzkumy a pro vývoj dalších aplikací v oblasti fonetiky, zejména řečových analyzátorů a syntezátorů. Korpus ISABASE byl budován podle amerického fonetického korpusu TIMIT, ve srovnání se svým prototypem je však daleko menší: tvoří jej kolem 5000 řečových fragmentů, v nichž je zaznamenáno 3713 různých slov. Korpus byl zpracováván do značné míry ručně. Fonetická transkripce používaná v korpusu ISABASE vychází z ruské fonetické transkripce sestavené R. I. Avanesovem.

Korpus ISABASE tvoří soubory zvukových záznamů o délce jedné věty opatřených údaji o mluvčím a o větě samé (text věty, její fonetická transkripce a segmentace na slova a fonémy). Do korpusu jsou zahrnuty nahrávky od 36 mluvčích (20 mužů a 16 žen), většinou nositelů moskevského dialektu, jejichž úkolem bylo číst předložený text tak, aby byla jednotlivá slova navzájem oddělena krátkými pauzami (diskrétně čtená řeč). Posléze byl korpus doplněn o materiál představující fragmenty kvazispojité řeči, tj. takového čtení textu, kdy pauzy mezi jednotlivými slovy nejsou znatelné, nicméně na hranicích slov nedochází k sándhí. V korpusu jsou zastoupeny různé typy akustického prostředí: některé nahrávky byly pořizovány ve zvukově izolované kabině, jiné v prostředí s běžnou zvukovou clonou. Texty, které byly pro zpracování ve fonetickém korpusu vybrány, lze na základě jejich fonetických vlastností rozdělit na dvě části. První část korpusu tvoří bloky krátkých oznamovacích vět převzatých z oficiálních státních dokumentů. Lexikální materiál každého bloku této části je foneticky vyvážený, tj. obsahuje všechny ruské fonémy a jejich varianty. Druhou část korpusu tvoří texty foneticky reprezentativní, tj. texty, v nichž se frekvence jednotlivých fonémů a ostatních fonetických jednotek blíží ideálnímu fonetickému modelu ruštiny. Jsou zde zastoupeny věty oznamovací i tázací a rovněž části dialogů. Texty pro druhou část korpusu byly vybrány z povídek A. P. Čechova a z „fonetické“ povídky M. Kamrase.

V současné době je v ÚSA RAV ve spolupráci s lingvisty z Filologické fakulty MGU budován nový fonetický korpus, při jehož zpracování by měly být využity technologie [154]založené na statistických metodách. To by umožnilo zpracovat nahrávky od daleko většího počtu mluvčích a podstatně zvětšit velikost korpusu.

Poněkud odlišný typ fonetického korpusu ruštiny vzniká úsilím fonetiků a studentů lingvistiky z Filologické fakulty MGU. Vedoucími této skupiny jsou O. F. Krivnova, A. V. Babkin, G. S. Strokin a L. M. Zacharov, lingvisté, kteří se podílejí rovněž na realizaci výše zmíněných projektů ÚSA RAV. Korpus vytvářený na Filologické fakultě MGU by měl být zaměřen na popis akustické variability fonetických jednotek v řeči. Velmi náročnou část budování korpusu představuje členění zvukových souborů na segmenty o přibližné velikosti fonému a fonetická anotace těchto segmentů (phonetic labelling). Obě tyto fáze jsou zatím prováděny ručně.

Skupina fonetiků z Filologické fakulty MGU se dlouhodobě rovněž věnuje vývoji ruského řečového syntezátoru. První verze syntezátoru na bázi mužského hlasu byla pod názvem AGAFON vytvořena v letech 1992–1995. Autory této verze byli N. V. Zinovjeva, O. L. Krivnova, L. M. Zacharov, I. G. Frolova a A. J. Frolov. V současné době se pracuje na nové, modernější verzi na bázi ženského hlasu. S aktivitami a projekty fonetiků z Filologické fakulty MGU se lze seznámit na stránkách http://isabase.philol.msu.ru/SpeechGroup; na těchto stránkách lze rovněž najít značné množství odborných článků k problematice ruských fonetických korpusů.

 

LITERATURA

 

ANDRJUŠČENKO, V. M.: Koncepcija i architektura mašinnogo fonda russkogo jazyka. Moskva 1989.

AVANESOV, R. I.: Russkoje literaturnoje proiznošenije. Moskva 1972, 1984.

AVANESOV, R. I – OŽEGOV, S. I (eds.): Russkoje literaturnoje proiznošenije i udarenije. Slovar’-spravočnik. Moskva 1959.

BABKIN, A. B.: Avtomatičeskij sintez reči – problemy i metody generacii rečevogo signala; http://isabase.philol.msu.ru/SpeechGroup

BOGDANOV, D. S. – KRIVNOVA, O. F. – PODRABINOVIČ, A. J. – FARSOBINA, V. V.: Baza rečevych fragmentov russkogo jazyka ISABASE. In: Intelektual’nyje technologii vvoda i vyvoda informacii. Moskva 1998; http://isabase.philol.msu.ru/SpeechGroup

BOGUSLAVSKIJ, I. M.: Annotirovannyj korpus russkich tekstov: koncepcija, instrumenty razmetki, tipy informacii. In: Trudy Meždunarodnogo seminara po kompjuternoj lingvistike i jejo priloženijam Dialog-2000. Protvino 2000.

BONDARKO, L. V. – GRAAF, T. de: Language contact and sound archives in Russia. In: ICPhS 99 San Francisco.

KRIVNOVA, O. F. – ZACHAROV, L. M. – STROKIN, G. S.: Rečevyje korpusy (opyt razrabotki i ispol’zovanije). In: Trudy Meždunarodnogo seminara po kompjuternoj lingvistike i jejo priloženijam Dialog-2000. Prikladnyje problemy. Moskva 2001; http://isabase.philol.msu.ru/SpeechGroup

KRIVNOVA, O. F. – ZACHAROV, L. M. – STROKIN, G. S.: Podbor tekstovogo materiala i statističeskij instrumentarij dlja sozdanija rečevych korpusov. In: Sbornik trudov XI sesii Rossijskogo akustičeskogo obščestva. T. 3. Akustika reči. Medicinskaja i biologičeskaja akustika. Moskva 2001; http://isabase.philol.msu.ru/SpeechGroup

SIČINAVA, D. V.: K zadače sozdanija korpusov russkogo jazyka; http://www.mccme.ru/ling/mitrius/article.html

ŠULC, M. – GORJANC, V.: Korpus slovinského jazyka FIDA. SaS, 61, 2000, s. 313–316.

ŠULC, M.: Korpus chorvatského jazyka HNK. SaS, 62, 2001, s. 234–236.

ŠULC, M.: Korpusy polského jazyka. SaS, 63, 2002, s. 311–315.

[155]VINOGRADOVA, V. B. – KUKUŠKINA, O. V. – POLIKARPOV, A. A. – SAVČUK, S. O.: Kompjuternyj korpus tekstov russkich gazet konca XX veka: sozdanije, kategorizacija, avtomatizirovannyj analiz jazykovych osobennostej. In: Russkij jazyk: istoričeskije suďby i sovremennosť. Trudy i materialy meždunarodnogo kongressa rusistov-issledovatelej. Moskva 2001, s. 398.

ZALIZŇAK, A. A.: Grammatičeskij slovar’ russkogo jazyka. Moskva 1977.


[1] Dalším tradičním odvětvím ruské počítačové lingvistiky jsou systémy automatického překladu (především ruština-angličtina, angličtina-ruština), které jsou vyvíjeny a stále zdokonalovány od 70. let.

[2] Zalizňakův Gramatický slovník je podobným způsobem využíván i v dalších ruských korpusech.

Ústav východoslovanských a slavistických studií FF UK
nám. Jana Palacha 2, 116 38 Praha 1

Slovo a slovesnost, ročník 64 (2003), číslo 2, s. 148-155

Předchozí Ludmila Uhlířová: Glottometrics

Následující Jan Kořenský: Zemřel Alexandr Stich