Časopis Slovo a slovesnost
en cz

Projekt korpusového slovníku maďarštiny

Jan Králík

[Book reviews]

(pdf)

Projekt korpusového slovníku maďarštiny

Jazyková situace maďarštiny se historicky liší od situace češtiny především velkou jazykovou reformou provedenou roku 1772, po níž se maďarština proměňovala již výrazně méně než ve stejném období čeština. Tím je také dána odlišnost náplně a pojetí výkladových slovníků a nejnověji také textových korpusů. Dosavadní velké slovníky maďarštiny přesto vznikaly v mnohém ohledu podobně jako hlavní výkladové slovníky české: pečlivou lingvistickou excerpcí na papírových lístcích téhož formátu, s týmiž údaji navrženými zřejmě jednotně ve Vídni koncem 19. století. Maďarský archiv soustředil dodnes na 6 milionů takových záznamů.

[73]Potřeba nového slovníku opřeného o moderní textový korpus v elektronické podobě zůstává ovšem u češtiny a maďarštiny různá. Jak pro češtinu, tak pro maďarštinu sice existují z konce 20. století slovníky neologismů (nových slov), ale celkový vývojový posun se u maďarštiny nejeví tak intenzivní, aby vyvolal naléhavou potřebu rozsáhlého synchronního korpusu, jaký pro češtinu již představují SYN2000 a jeho další rozšíření nad 100 milionů slov. Pro maďarštinu sice existuje projekt stomilionového korpusu, na kterém se pracuje, lexikografové však mají zatím k dispozici pouze maďarský historický korpus s 23 miliony slov z let 1772–2000, tedy zdroj podstatně skromnější a zároveň různorodější: obsahuje 15 milionů slov z 20. století, 6,4 milionu slov z 19. století a 1,6 milionu slov z 18. století (po reformě). Jednotlivé texty mají široký rozptyl rozsahů s obvyklou délkou výběru kolem 1200 slov, ale i s extrémy od básně o dvou slovech po román s 34 812 slovy. Většinu textů tvoří próza a beletrie (51 % a 31 %), poměrně vysoké zastoupení mají poesie (8,5 %) a také dramata nahrazující mluvený jazyk (5,7 %). Každý text je provázen údajem o žánru, autorovi a roku vzniku. Numerická lokalizace je doplněna automaticky.

Myšlenka založit nový velký akademický slovník maďarštiny na textových datech shromažďovaných v elektronické podobě vznikla na půdě Jazykovědného ústavu Maďarské akademie věd v Budapešti v době, kdy se ještě běžně neužívalo termínu korpus – v roce 1985. Po 17 letech příprav nyní dospěl projekt k vytříbení představ a pokusných kroků do stadia vydání reprezentativní informační publikace s popisem koncepce a s ukázkou prvních tří set hesel (Csengery – Ittés, 2002).

Nový slovník maďarštiny bude kombinovat klasické postupy s hledáním dokladů v korpusových zdrojích. Tomu odpovídá především struktura hesel: po lemmatu a základním gramatickém údaji (o slovním druhu, zkratkou) následuje synonymum nebo slovní výklad významu a jeden příklad typického užití v korpusu s údajem o roce, zdroji (autoru) a lokalizaci v korpusu. Nabývá-li dané slovo ve složeninách dalších významů, nebo významových odstínů, je každý z takových případů popsán zvlášť opět s údajem o roce, zdroji (autoru) a lokalizaci. Má-li dané slovo samo více významů, jsou číslovány a řazeny za sebou podle míry obvyklosti. Existují-li k lemmatu prefixové nebo sufixové odvozeniny, následuje seznam prefixů, příp. i sufixů, příp. náznaky dalších možných složenin bez výkladu. Je-li třeba, je připojen frazém nebo frazeologický příklad. Závěr hesla tvoří seznam slovníků, ve kterých již bylo dané slovo popsáno (ze souboru sedmi slovníků z let 1862–1994) a zkratka autora zpracování.

O zařazení slova do slovníku rozhoduje autorský kolektiv, který také rozhoduje o zařazení či nezařazení zkratek a cizích slov (zařazena jsou např. slova ábécé, aggregát, parlament, alma mater). Korpus se považuje za daný. Doplňuje se pouze ve výjimečných případech, kdy důležité slovo nebo nový význam v dosavadním korpusu schází. Doplňuje se ovšem celý text, popř. textový úsek (článek, kapitola).

Slovník by měl obsáhnout 100 000 hesel jednak v redukované tištěné podobě v osmi svazcích, jednak v širší podobě (s podrobnějšími gramatickými údaji a s větším množstvím příkladů) na CD ROM. Označkování elektronické verze umožní vyhledávat např. synonyma, hyponyma apod.

[74]Maďarský kolektiv vedený J. Pajzsovou se tedy odhodlal nečekat na další vývoj. S mladou skupinou lexikografů a (hlavně) lexikografek zahájil rychlou práci na rozsáhlém projektu, který má ambice nikoli maximalistické, ale reálné, a po zralé úvaze přináší do diskusí o proměně výkladových slovníků národních jazyků kombinaci tradičních a moderních postupů. Vsází spíše na jistoty než na experimentování a vědomě se zříká průlomové objevnosti. Solidnost přístupu ovšem stojí v každé době mimo jakoukoli kritiku.

 

LITERATURA

 

CSENGERY, K. – ITTÉS, N.: Mutatványok az Akadémiai nagyszótárból. MTA Nyelvtudományi Intézet, Budapest 2002.

Ústav pro jazyk český AV ČR
Letenská 4, 118 51 Praha 1

Slovo a slovesnost, volume 64 (2003), number 1, pp. 72-74

Previous Jitka Janíková, Jan Volín: Jana Dankovičová: The Linguistic Basis of Articulation Rate Variation in Czech

Next Jan Kořenský: Za Milošem Dokulilem