Otakar Šoltys
[Discussion]
Новый обратный словарь чешского языка / A new reverse dictionary of Czech
V prvním pololetí r. 1987, s vročením 1986, vyšel v nakladatelství Academia Retrográdní slovník současné češtiny (501 s.). Jeho autory jsou Marie Těšitelová, Jan Petr a Jan Králík. Po retrográdním morfematickém slovníku češtiny E. Slavíčkové (1975) a retrográdním slovníku slovenštiny J. Mistríka (1976) dostáváme tedy do ruky třetí a nejmodernější slovník uspořádaný a tergo, který je v Československu k dispozici široké obci uživatelů. Je to jistě vydavatelský úspěch, i když vzhledem k známým omezením uplatňovaným v současnosti musela být část slovníku obsahující adjektiva publikována jako interní tisk ČÚJ ČSAV (1985). Interní tisky, jak známo, slouží vnitřní potřebě pracoviště, a proto je retrográdní slovník tvarů adjektiv z běžné distribuce bohužel vyloučen.
[53]Retrográdní slovník současné češtiny vstupuje do kontextu poměrně teoreticky i prakticky vyspělého zpracování tohoto typu slovníků. Již Retrográdní morfematický slovník češtiny byl velmi dobře zpracován a přinášel kromě slovníku ve zpětném uspořádání mnoho lingvisticky závažných poznatků o morfematické stavbě češtiny. Za překonaný je však třeba považovat materiál, z něhož se při zpracování vycházelo. Tímto nedostatkem netrpí Retrográdny slovník slovenčiny, který je zpracován na materiále daleko bohatším a také obsahuje větší množství lingvisticky závažných informací. Mistríkův retrográdní slovník slovenštiny má trvalou hodnotu v tom, nakolik se v něm na zpětné abecední uspořádání slov podařilo navázat poměrně dobrý vhled do systému slovenštiny a jejích dynamických potencí. Oba slovníky z poloviny sedmdesátých let však představují výrazně nadprůměrné zpracování retrográdních slovníků v kontextu evropském i světovém. (Srov. zde s. 56n.)
Retrográdní slovník současné češtiny se s tímto odkazem kvalitativní náročnosti nejen vyrovnává, ale přináší mnohé nové myšlenky a aspekty do zpracování slovníků uspořádaných a tergo; ty zpřístupňují tento typ slovníku jak velmi širokému praktickému využití lingvistickému, tak zároveň i velmi specializovanému užití odbornému, a to i pro odborníky nelingvisty.
Za nejdůležitější u nového retrográdního slovníku češtiny považujeme výběr materiálu, na němž je slovník založen, a zavedení parametru frekvence u sledovaných jevů; jde o tzv. frekvenční retrográdní slovník (srov. Těšitelová, 1985). Slovní zásoba uvedená v Retrográdním slovníku současné češtiny není ani univerzální, ani anonymní. Je to slovní zásoba ze tří stylových oblastí: publicistické (60 textů z let 1972—1974), odborné (100 textů z let 1972—1975) a administrativní (20 textů z let 1972—1974). Máme tedy k dispozici slovní zásobu časově přesně určenou, navíc ze stylových oblastí, které mají podstatný vliv na aktuální stav komunikačních norem fungujících v současné společnosti. Tato slovní zásoba je nadto charakterizována frekvencí výskytu nejen slov, ale i jejich tvarů. Stačí tedy elementární vyhledávací procedura, abychom získali spolehlivé informace o distribuci určitého pojmenování v současné češtině v situacích, kdy nemůžeme spoléhat na individuální styl a musíme respektovat textové vzorce funkčních stylů. Kromě toho dostáváme i velmi přesné informace o distribuci jednotlivých tvarů, o jejich rozložení i dynamických potencích. Zatímco pro vyhledávání informací o pojmenováních by mohl sloužit slovník i běžně uspořádaný, pro distribuci jednotlivých tvarů je uspořádání a tergo výhradním řešením.
Všechny poznatky, které o výše charakterizovaném materiálu shromáždili jeho zpracovatelé, pracovníci bývalého úseku matematické lingvistiky v ÚJČ ČSAV (L. Uhlířová, M. Ludvíková, I. Nebeská, J. Králík, H. Confortiová, H. Jelenová, E. Bálková aj. za vedení M. Těšitelové), byly algoritmizovány a zpracovávány pomocí počítače. Proto lze z korpusu připraveného pro slovník získávat na základě vhodného programového vybavení v úzce odborném nebo účelovém zadání ještě informace jinak organizované nebo i kvalitativně odlišné (vhodným kombinováním sledovaných parametrů), a proto bylo např. možné text slovníku do nakladatelství odevzdat ne jako „papírový“ rukopis, ale na magnetické pásce okamžitě využitelné v tiskárně. Jde tedy o materiál mnohostranně užitečný. Předpokládáme, že není daleko doba, kdy slovníky českého jazyka budou vycházet jednak jako dosud v podobě knižních publikací, jednak na pásce nebo na disku, aby byly snáze dostupné úzce specializovanému využití za pomoci výpočetní techniky jak v lingvistice, tak i v technice. Jestliže tento předpoklad je správný, pak příprava Retrográdního slovníku současné češtiny byla pro druhou možnost zveřejňování lingvistických poznatků pionýrskou prací a nashromážděných poznatků a zkušeností by se mělo plně využít, zejména v lexikografické praxi.
Retrográdní slovník současné češtiny se skládá ze tří částí: V první části je retrográdně uspořádán korpus 540 000 slov, tj. přibližně čtyřnásobek korpusu Mistríkova [54]slovníku. Každé slovo je opatřeno dvojmístným kódem, v němž je zachycena primární i sekundární slovnědruhová charakteristika uváděné jednotky. Tak např. adjektivum odumřelý je provázeno kódem 25, což znamená, že jde o deverbativní adjektivum, osmý kódem 24, což znamená, že v korpusu je uloženo jako adjektivum odvozené od číslovky hřib kódem 11, což znamená, že je to neodvozené substantivum, apod. Zároveň je každé pojmenování provázeno i uvedením jeho absolutní frekvence v materiálu, který byl předmětem výzkumu (viz výše). Dozvídáme se tak, že pojmenování blb bylo v uvedených stylových oblastech použito pouze 1krát, zatímco substantivum výroba 585krát, myšička 1krát, špička 23krát atd. Navíc proti běžnému frekvenčnímu slovníku můžeme zjistit, že ze 183 slov končících na -el pouze substantiva účel, model, učitel, ředitel, činitel a uzel mají výskyt vyšší než 100, substantiva úhel, Karel, odběratel, dodavatel, uživatel, obyvatel, nositel, představitel, přítel, kostel mají výskyt větší než 50 atd. Při shromažďování takovýchto informací o jazyku ve zvolených stylových oblastech, kdy se nám začíná modelovat reliéf komunikačních událostí z původního plochého slovníkového výčtu, se mimo jiné začíná projevovat výhodnost uspořádání a tergo.
V druhé části slovníku označené II/Substantiva jsou retrográdně uspořádána substantiva ve všech tvarech, v nichž se v korpusu vyskytla. Např. podstatné jméno rodič, pokud se v korpusu vyskytne jen v singuláru, je ve slovníku samostatně uvedeno — 24krát, vždy s označením frekvence výskytu pádového tvaru (pády, které jsou homofonní, tvarově se uvádějí pouze jednou, jsou však rozlišeny kódem); jestliže se však substantivum rodiče (50krát) vyskytuje jen v plurálu, pak i slovník tento fakt odráží: např. tvary rodiče (36krát), rodičů (29krát), rodiči (5krát), rodičům (3krát), rodičích (1krát) jsou v korpusu doloženy, o ostatních tvarech to neplatí a slovník tento fakt odráží, a to vedle naznačení lexikálního významu. Objektivnost a bohatou využitelnost tohoto faktu není třeba zdůrazňovat, zvláště když právě tyto poznatky se nebrání strojovému zpracování při úzce odborném využití slovníku (morfologická a slovotvorná diagnostika, distribuce fonému v začátcích, uprostřed a v koncích slov atd.). Každý tvar substantiva je provázen osmimístným kódem, přičemž první dvě místa jsou převzata ze I/Slovníku, označují tedy slovnědruhové zařazení, třetí místo dokládá, zda substantiva bylo užito předložkově nebo bezpředložkově, čtvrté místo informuje o rodu, páté místo o čísle, šesté místo o pádu, sedmé místo o nesklonnosti, osmé místo o nespisovnosti (místa jsou v úvodní části označována jako sloupce). Většinou tedy každé substantivum provází šestimístný kód, protože nesklonných a nespisovných substantiv je ve zvolených stylových oblastech mizivé množství. Každý tvar substantiva je opět doložen údajem o frekvenci výskytu, resp. o doloženosti nebo nedoloženosti morfologických kategorií v daném tvaru, např. kategorií čísla, pádu apod. V tomto případě již retrográdní uspořádání umožňuje nebývale komplexní vhled do morfologické výstavby českého substantiva, jeho dynamiky i rozvojových potencí při zachování všech předností časově a stylově konkrétního pohledu. Na podrobnou ilustraci využití druhé části slovníku nemáme dost prostoru, ale už třeba ze srovnání faktů, že podst. jméno větrání (označené 15, s frekvencí 11) se vyskytlo 3krát v nom. sg., 1krát v dat. sg., 2krát v ak. sg., 4krát v instr. sg. a 1krát v lok. pl., kdežto substantivum tání (označené 15, s frekvencí 26) 26krát v gen. sg. bezpředl. a substantivum přání (označené 15, s frekvencí 29) 6krát v nom. sg., 4krát v gen. sg., 1krát v dat. sg., 5krát v akuz. sg., 1krát v lok. sg., 3krát v instr. sg., 1krát v nom. pl., 1krát v gen. pl., 7krát v ak. pl., lze např. udělat závěr, že ve zvolených stylových oblastech se produktivněji využívá podst. jmen slovesných s abstraktním významem. Podrobná algoritmizace pak při odborném využití umožňuje dělat výběry různého druhu, které mohou sloužit k velmi praktickým cílům v tiskárnách, při přípravě editorských programů pro mikropočítače, při adaptacích počítačových jazyků vzhledem k češtině (vytváření tzv. dialektu), při jazykovém vyučování (zvláště při tvorbě učebnic) apod.
[55]Obdobným způsobem je zpracována třetí část III/Slovesa. Také sloveso je vybaveno osmimístným kódem a frekvencí. V prvním sloupci je převzata slovnědruhová charakteristika z první části, na druhém místě je signalizován vid, na třetím místě osoba, číslo, infinitiv, na čtvrtém místě způsob, čas, slovesný rod (tady nestačilo deset číslic, které byly k dispozici při kódování, a proto část charakteristik přešla do pátého místa), na pátém místě neurčité tvary, na šestém místě složenost a zvratnost, na sedmém místě jmenný rod a konečně na osmém místě nespisovnost. Vše, co jsme napsali o druhé části a o jejím využití, platí v plné míře o části třetí, navíc s tím, že sloveso má při algebraickém zpracování přirozeného jazyka stále centrální postavení. Zatímco však dosavadní zpracovatelé vycházeli z introspektivních předpokladů a z idealizovaných zápisů v jazykovědných publikacích (prototypy), dostává se jim vydáním Retrográdního slovníku současné češtiny do rukou velmi podrobné zpracování reálného bytí slovesných lexémů i distribuce jejich morfologických kategorií odrážející jejich fungování v textech zvolených stylových oblastí. Rovněž z části III/Slovesa lze čerpat mnoho původních poznatků o textovém a kontextovém postavení slovesa, kterými lze lingvistiku obohatit.
Také adjektiva, která nejsou součástí recenzovaného slovníku a která existují jako samostatný interní tisk (Retrográdní slovník tvarů adjektiv v současné češtině zpracovaný týmž kolektivem, 264 s. — viz výše), jsou vybavena osmimístným kódem a frekvencí a poskytují o adjektivech ve zvolených stylových oblastech informace typologicky obdobně podrobné a plastické. Soudíme, že jejich nepřítomnost v Retrográdním slovníku současné češtiny je citelná.
Jak jsme již uvedli, kontext retrográdních slovníků, do něhož Retrográdní slovník současné češtiny autorů M. Těšitelové, J. Petra a J. Králíka vstupuje, má vysoké parametry. Z toho, nač jsme v naší recenzi upozornili, ale i z ostatních nezdůrazněných vlastností tohoto díla soudíme, že se recenzovaná práce s těmito vysokými parametry nejen vyrovnává, ale že přináší i nové postupy a náměty, jak by měly retrográdní slovníky v budoucnu vypadat a jak je zpracovávat. Podařilo se zejména výrazně obohatit množství informací, které lze do slovníku uspořádaného a tergo vložit. Mnohé tyto informace lze získat přímo, mnohé ještě další prací s korpusem, která navíc může být pružně specifikována a automatizována. Výběr materiálu pro slovník může také přinést původní poznatky o stylových oblastech, publicistické, odborné a administrativní, i o lexikální zásobě češtiny vůbec. (Retrográdní slovník totiž představuje nejrozsáhlejší synchronní průřez slovní zásobou, který byl v posledních letech publikován.) Vědeckostí zpracování a časovou konkrétností je tento průřez cenný nejen v současnosti, ale bude cenný i v budoucnosti, kdy jeho úplnost nabude historické hodnoty. Snadná zjistitelnost rozložení hlavních potencí jazykového systému je dobře využitelná i ve slovotvorbě a morfologii, jak jsme se zmínili výše.
I když tedy hodnotíme Retrográdní slovník současné češtiny velmi vysoko, nelze se nevyhnout některým výtkám. Soudíme, že technické zpracování slovníku nedosahuje standardu, na který jsme si v akademickém nakladatelství zvykli, a také zvolený formát publikace se jen těžko umisťuje do běžných knihoven. Tím je částečně (a zbytečně) eliminována praktická a teoretická užitečnost této práce. Uživatel, který plně zhodnotí poznatky ve slovníku uložené, se bude zřejmě dožadovat nejen doplnění adjektiv, ale i možného rozšíření počtu stylových oblastí, které jsou ve slovníku sledovány a které jsou pro současnou komunikaci závažné. Obvykle také retrográdní slovníky existují v kontextu slovníků výkladových majících obdobné parametry. Takový výkladový slovník nám v současnosti chybí.
Závěrem soudíme, že Retrográdní slovník současné češtiny je publikace zdařilá a potřebná. Jejím vydáním se podstatně obohatilo množství informací, které o češtině máme k dispozici, i potenciálně rozšířil počet uživatelů, kteří s jazykovými poznatky mohou pracovat.
[56]LITERATURA
MISTRÍK, J.: Retrográdny slovník slovenčiny. Bratislava 1976.
SLAVÍČKOVÁ, E.: Retrográdní morfematický slovník češtiny. Praha 1975; rec. v Sas, 38, 1977, s. 171—173.
TĚŠITELOVÁ, M.: K využití statistických metod v kombinaci s retrográdním uspořádáním jazykových jednotek. SaS, 46, 1985, s. 109—118.
TĚŠITELOVÁ, M. - PETR, J. - KRÁLÍK, J.: On some issues of the reverse dictionary of words and forms. PSML, 9, 1986, s. 65—74.
TĚŠITELOVÁ, M. - PETR, J. - KRÁLÍK, J.: Retrográdní slovník tvarů adjektiv v současné češtině. Praha 1985. Interní tisk ÚJČ ČSAV.
Slovo a slovesnost, volume 49 (1988), number 1, pp. 52-56
Previous Václav Blažek: Problémy a perspektivy nostratické hypotézy (fonologie)
Next Jan Králík: O retrográdních slovnících a jejich vývoji
© 2011 – HTML 4.01 – CSS 2.1