Časopis Slovo a slovesnost
en cz

Oxfordská lexikografie přechází také plně na korpus

František Čermák

[Rozhledy]

(pdf)

The Oxford lexicography switches fully to the corpus

Název příspěvku jistě vystihuje hlavní změnu v tradici Oxfordského nakladatelství, tj. úplný přechod ke korpusovému materiálu jako základnímu, což je dnes nutné vnímat na pozadí už velmi pestré řady všech velkých britských nakladatelství, která se takto orientovala už o něco dříve (po pionýrském obratu nakladatelství Cobuild). Název však neprávem zdůrazňuje jen jedinou, byť zcela zásadní inovaci, a to na úkor dalších a neméně podstatných. Novou koncepci slovníku The New Oxford Dictionary of English (Ed. J. Pearsall, chief ed. P. Hanks, Clarendon Press, Oxford 1998, 2152 s. – zkr. NODE) v nejslavnější a nejprestižnější oxfordské řadě slovníků angličtiny a volbu nových východisek si totiž vyžádala potřeba větší přesnosti podávané informace a odpovídající vyšší adekvátnosti jejich lexikografického zpracování a tedy, podle implicitního přiznání tvůrců, nespokojenost s tradicí. Nemalým motivem byla i krajně ostrá konkurence, v níž ovšem oxfordské slovníky nikdy nebyly periferní.

Tento projekt ve zvýšené míře navrhovali pod vedením P. Hankse vedle zkušených lexikografů lingvisté, ale i např. kognitivisté a zásadní důraz se v něm položil na zachycení všeho typického a centrálního v dnešním úzu, a to v kontrastu k tradičnímu důrazu a spolehnutí se na známé stanovení vymezujících podmínek významu. Zřejmě hlavním důvodem pro tento obrat byla tedy potřeba reakce na tradičně rozmazaný (popř. též nesouvisle atomizovaný) obraz významu bez jasného základu, jak ho prezentovala většina slovníků ještě nedávné minulosti. Výsledkem je značně odlišný přístup založený na lišení jen několika málo významů a na zřetelnější definici (srov. obraz hesla heart ve srovnání dále). Svou koncepcí je NODE slovník výhradně synchronní, opírá se tedy pouze o všechny dnes doložené významy včetně všech konvenčních případů přenesenosti.

 

Základem umožňujícím takovou důvěru ve výchozí materiál je obrovský British National Corpus o 100 miliónech výskytů, resp. dokladů, který představuje skutečný, realistický obraz dnešního úzu, nesrovnatelně spolehlivější než jakýkoliv tradiční lexikální archív (v Oxfordu ho nazývají Citační databáze), i když ten doplňkově sloužil vydatně také. Doplňován však byl i z nového a slibně rostoucího Oxfordského čtecího programu (dnes čítajícího přes 40 miliónů nových excerpt, která rostou každoročně o dalších 4,5 miliónu). Cíleně se zaměřuje především na vybrané odborné oblasti. Je třeba si povšimnout skutečnosti, že tento tradiční a na udržování dnes nesmírně drahý archív si zřejmě už může dovolit málokdo; přesto pro svou neodstranitelnou náhodnost výběru (je ponechána na volbě několika stovek [137]excerptorů) i ten už začíná sloužit pouze jako doplněk korpusu. Hlavním směrem, kam se tento program orientoval, byly pochopitelně obory nové a dosud excerpcí i korpusem málo pokryté (komputery, nové typy medicíny, nové zimní sporty, ptáci a rostliny celého světa ap.), které vyvážený korpus zatím nedokáže vhodně zachytit. Zásadním bylo v NODE i rozhodnutí propojit hesla jazyková a encyklopedická. Geografickým záběrem do všech velkých variet angličtiny se NODE stává plně celosvětovým.

I nakladatelsky a typograficky je NODE jedinečný (zajímavá a funkčně bohatá grafika užívá např. i stínovaného tisku, ale jen střídmě značek). Svým rozsahem (asi 90 000 hlavních hesel, podle uvedených polotučných záhlaví však aspoň dvojnásobného rozsahu) a s více než 2000 stranami a pozoruhodnou typografií je jedním z největších jednosvazkových slovníků vůbec. Dodejme, že informace na přebalu typicky komerčním způsobem rozsah poněkud zamlžuje: poměrně nejasně se uvádí, že obsahuje 350 000 slov, frází a definic. Na jeho vzniku se v rozsahu několika málo let podílelo 31 redaktorů, 22 oborových konzultantů a 29 konzultantů pro všech 8 pokrytých variet angličtiny.

Volba hesel byla usnadněná korpusovým východiskem a nepodléhala žádné subjektivní selekci. Heslář zachycuje standardní angličtinu užívanou po celém světě v jazyku psaném a mluveném bez restrikcí, a to v různém stupni formálnosti jejího užití, včetně více než 14 000 výrazů z regionálních standardů (britský, americký a kanadský, indický, australský a novozélandský, jihoafrický a antilský, resp. West Indies). Tak se lze např. dovědět, co znamená a jak se užívá i velmi specifický australský lexém larrikin (zhruba „křupan, nevázaný, nekonvenční člověk“), běžně ve slovnících neuváděný, apod. Napomohla tomu celosvětová síť zapojených konzultantů a ovšem i upuštění od priority jediného standardu (původně britského). Jeden z hlavních lexikografických problémů, zda do slovníku včlenit termíny a další encyklopedická hesla, popř. v jakém rozsahu, řešili autoři příklonem k jejich zařazení. Klasický rozpor „slova versus fakta“ totiž není nijak ostrý, jak bývá stavěn, a je tu mnoho různých přesahů. Protože obecnou zásadou bylo zařadit a zmapovat obecné znalosti anglických mluvčích, přišla sem například i někdy pozoruhodná hesla propriální. Není přitom jasné, nakolik při jejich výběru (a dalších hesel encyklopedických) napomohl právě korpus; tradiční nevyřešený problém je právě v kritériích výběru. NODE takto mj. zahrnuje přes 4500 toponym, 4000 biografických hesel a na 3000 jiných proprií, u kterých se vedle vlastní informace klade důraz i na stručné zhodnocení typu jejich úzu, které pak motivuje jasně jejich zařazení do hesláře. Najdeme tu publicisticky tak frekventovaná hesla jako Baader-Meinhof nebo jména jazyků jako hauština, u kterých se však dovíme nejen, jaký jazyk to je, ale i kde se jím mluví, kdo jím mluví a počet mluvčích, nebo např. hesla jako Family Division, což je slavné rozhodnutí nejvyššího soudu USA o adopci, rozvodu apod., často citované. Z „českých“ hesel (z písmene B) tu pro zajímavost najdeme hesla Beneš, Bohemian, bohunk, Brno, České Budějovice, z jiných např. Havel (7 řádků), Kundera, Hus, Karlovy Vary, Vltava aj.

[138]Mikrostruktura má několik méně běžných složek. Standardní heslo vytvářejí tyto složky: lemma (s číslovanými homonymy, popř. variantami), výslovnost, registr, slovnědruhové určení (s výraznou značkou ► na okraji sloupce), popř. gramatická informace, definice sémantiky v několika stupních (graficky odlišené), exemplifikace, encyklopedická informace, kolokace (PHRASES), odvozeniny (DERIVATIVES), etymologie (ORIGIN) a někdy i úzus (USAGE). Příznačné je rigorózní a explicitní označování veškeré lexikografické informace bez užití zkratek, a to i u stylu apod. (nepatrnou výjimkou je několik srozumitelných zkratek v gramatice). Podívejme se stručně na některé podrobnosti.

Lemma zahrnuje ortografickou informaci a informaci o variantách, zvl. lokálních (mj. americké). K tomu patří i nabídka pokynů pro psaní v případě pochyb, zda psát zvlášť, dohromady nebo se spojovníkem, což je typický a stále pro angličtinu aktuální problém. Zajímavou a snad poněkud problematickou volbu odráží zpracování výslovnosti: kromě variant (např. u schedule) se pro běžná slova totiž výslovnost neuvádí (s poukazem na to, že ji každý zná, a protože nejde o slovník pro cizince, je to relevantní), u zvláštních slov pro jejich obtížnost však ano, a to zvl. u slov cizích a proprií. Pokud se takto výslovnost uvádí (užívá se standardní IPA), je velmi věrná (srov. např. polskou řeku Wisła [viswa], což je informace, která se např. nikde neuvádí ani v českých slovnících a většině českých mluvčích není přitom bohužel povědomá). Autoři přitom zdůrazňují, že i zde jim jde, proti tradici, o to reflektovat skutečný stav výslovnosti dnešní, a ne tradiční.

Registr je tradiční anglické označení namísto našeho stylu. Tradičně se jím míní některá z variet jazyka či úroveň úzu určovaná stupněm formálnosti a volbou lexikonu, výslovnosti a syntaxe, a to podle komunikativního cíle, sociálního kontextu a postavení mluvčího. Příznačné je, že se v takto funkčně založeném přístupu kodifikačně nic nediskriminuje, nenálepkuje či neodsuzuje jako v češtině; snad proto také tato poměrně volná klasifikace pro angličtinu tradičně stačí a nevyvolává neustálé spory jako u nás (nebyla by to aspoň zčásti inspirace?). Rozlišované registry, resp. rejstříky jsou tyto: formální, neformální, zastaralý, archaický, historický (užívaný, ale nedovolující užití o ničem současném), literární, poetický, odborný, řídký, humorný, nářeční, urážlivý (např. rasistický), hanlivý a vulgární slang. Dodejme, že v angličtině se slang užívá v mnohem širším smyslu – zhruba neformálního mluveného jazyka – než v češtině a v NODE se neoznačuje, je-li bezpříznakový; přitom nějaká ostrakizace mluveného jazyka (slangu) je tu nemyslitelná.

Gramatické informaci se tu věnuje víc místa, než je u oxfordských slovníků zvykem (i když méně než u jiných). Patří sem lišení a označování valence verba, rozlišované podle podvýznamů a provázané nabídkou kolokačních možností, které ilustrují úzus. Dále se zvlášť označují u substantiv kolektiva, singularia, látková, počitatelná a také jejich atributivní užití, u adjektiv pak atributivní a predikativní užití. Z flexe se pro slovesa uvádí forma 3. osoby sg. préz., tvary nepravidelného minulého času, participia, pro substantiva plurál a pro adjektiva stupňování.

Sémantika se v hesle zpracovává s důrazem jednak na prototypičnost a aktuálnost úzu a jednak na přechody, a to jak do metaforického úzu, tak odborného [139]jazyka. Vlastní řazení funkčních typů významu, u angličtiny typicky dané rozšířenou konverzí, sleduje přirozenou frekvenční prioritu. Napřed tudíž stojí primární význam slovnědruhový, např. u lexému bag je to význam, resp. funkce substantivní, a až pak trojí verbální „dát do tašky; ulovit; vypadat jako pytel“. Uvnitř každé slovnědruhové části je pak zavedeno zásadní a graficky výrazné odlišení jádrového významu (core sense), stojícího jako základ napřed, od podvýznamů (subsenses). Sledovaným předpokladem je, že každý lexém má aspoň jeden jádrový význam, který odráží typický a centrální úzus zjištěný z korpusu a ke kterému lze vztáhnout řadu podvýznamů, které bývají v tradiční terminologii nazývané přenesenými, obraznými apod. (zvláště figurative). Na rozdíl od množství nečíslovaných podvýznamů (odlišených však značkou ■ a menším typem) může jádrových významů být někdy také více, vždy však relativně velmi málo; jsou pak opatřeny číslem. Jádrový význam přitom bývá obvykle nejdoslovnější, často však je odlišný od významu nejstaršího, původního; nicméně nemusí to být ani význam nejfrekventovanější. Jedním z tradičních úskalí řazení významů ve slovníku bývá právě, vedle nedostatku frekvenčních podkladů, kolize jiných ohledů s faktem, že nejčastějšími významy bývají významy přenesené a obrazné. Situaci ilustruje příklad (české ekvivalenty jsou jen orientační):

cocoon (zámotek) hedvábné pouzdro spřádané larvami mnoha druhů hmyzu k ochraně kukly podobná struktura vytvářená jinými živočichy krytí zabraňující korozi kovového zařízení něco, co obaluje nebo obklopuje, zvláště ochranným nebo uklidňujícím způsobem: a cocoon of bedclothes | figurative a warm cocoon of love

Pokud má podtyp významu speciální povahu (např. je to kolektivum) nebo patří do odborné specializované oblasti užití, označuje se podle potřeby jednoslovnou charakteristikou před vlastní definicí.

U odborného lexikonu (encyklopedické povahy) se projevuje systematická a prohloubená snaha podat význam termínů především laikovi. Je to reakce na častý přístup v minulosti, kdy definice bývají psány jakoby specialistou zase jen pro specialistu. Prolomit tuto bariéru odbornosti (anebo naproti tomu nepřijatelného „zpopulárnění“ a deformace odborného významu), a to srozumitelně a při zachování odborné kvality a přesnosti, se autorům podařilo tím, že tento obtížný problém prostě neřešili. Namísto toho se rozhodli, že vedle vlastní lexikografické definice uvádějí ještě navíc a zvlášť i odbornou definici, resp. informace (po značce ●), popř. v podobě ještě zvlášť graficky vyznačované další dodatečné informace. Tak např. se pro heslo earth „země“ vedle vlastní definice uvádí i astronomická informace, vzdálenost od Slunce, její průměr a stáří apod. NODE v tomto vyniká zvláště v oblasti zvířecí a rostlinné říše z celého světa a zahrnuje tak poprvé hesla, která ve slovnících dosud nebývala, např. mesosaur (vodní plaz z Permu), kowari (malý masožravý vačnatec z Austrálie), hiba (japonský jehličnan) ap.

Zásadním problémem ve slovnících bývá lišení polysémie, resp. identifikace jejích kritérií a dodržení těchto kritérií napříč slovníkem. NODE je ve svém přístupu k polysémii jak novátorský (viz výše), tak střídmý. Jeho přístup však vynikne ještě více ve srovnání. Takto má pro totéž heslo heart (resp. srdce) NODE [140]jen 4 jádrové významy (zhruba: 1-orgán, 2-ústřední nejvnitřnější část, 3-konvenční znázornění/představa srdce nebo kresba, 4-s modifikátorem: stav a úrodnost zemědělské půdy). Naproti tomu NSOEDHP (The New Shorter Oxford English Dictionary on Historical Principles. Clarendon Press, Oxford 1993) registruje 32 významů jmenných a 4 slovesné, z nichž ovšem jsou některé vzhledem k odlišnému zaměření zastaralé. Konečně vůbec největší Oxford English Dictionary (1971) eviduje dokonce 56 významů, opět s řadou zastaralých. Naproti tomu srovnatelný český SSJČ uvádí pro srdce významů 8, přičemž poslední význam z NODE čeština nezná (1-orgán, 2-cit, 3-odvaha, 4-hruď, 5-člověk s citem, 6-střed, 7-znázornění/věc, 8-věc podobná srdci). Je zřejmé, že obdobná stratifikace na významy jádrové a podvýznamy se zde nabízí i pro češtinu.

Za definicí významu (neodborného) stojí většinou větný, pečlivě vybíraný korpusový příklad; své příklady však mívají, vedle jádrového významu, i podvýznamy. NODE nikterak nevyznává starou zásadu dobrého autora (ten se projevoval někdy dost bizarním územ), odsuzuje umělé, lexikografem vytvářené příklady a snaží se naopak v intencích celkového pojetí o co nejvýstižnější zachycení zaznamenaného úzu současného a typického.

Kolokace, spojení apod. (označeny jako PHRASES) se ve zvláštním oddílu, jasně odlišeném graficky, na konci hesla v podstatě omezují jen na frazémy v širším smyslu. Mají vedle svého lemmatu včetně variant a registru i svou definici a příklady, v některých případech je dokonce připojena zvláštní poznámka o úzu. Je pochopitelně uživatelsky velmi příjemné v takovémto uspořádání a explicitním vstřícném přístupu se snažit potřebnou informaci najít. Takto je např. pro vlastní heslo go (zhruba „jít“), což je jedno z nejobtížnějších a funkčně nejzatíženějších verb angličtiny, rezervováno 108 řádků, zatímco pro jeho kolokace 182 řádků (uvádí se tu na 50 frazémů), tedy přes 62 % řádkového rozsahu celého hesla.

Odvozeniny (označeny jako DERIVATIVES) se uvádějí tam, kde lze předpokládat jen čistou změnu strukturního významu (transpozice podle Dokulila). Takto např. v hesle low se uvádí: lowish adjective a lowness noun, zpravidla tedy odvozeniny stojí už bez další informace. Obecně si však autoři jsou dobře vědomi, jak moc se v této oblasti v lexikografii hřeší, především ve zkorelování slov s neodpovídající šíří významů, popř. i odchýleným územ, a proto je takových případů spíše méně. Ve stejném smyslu zcela upouštějí od často problematického, málo přehledného a zkráceného hnízdování s obdobně spornou a příliš generalizující informací.

Oddíl etymologie, tradičně přítomný a cenný u oxfordské slovníkové řady, je poměrně rozsáhlý a – jak podotýkají tvůrci – takové povahy, aby vedle odborně přesné a podrobné informace i stimuloval zájem laiků o původ slov. Uvádí se tu původní, tj. nejstarší význam, komentář o vývoji formy i významu, ale i „interní etymologie“, tj. etymologie uvnitř hesla pro jednotlivé podvýznamy a spojení. Speciálně se též uvádí a komentuje existující lidová etymologie.

Úzus (označen jako USAGE) je oddíl reflektující tradiční zájem uživatelů o dobrý úzus slov (kontrast proti neblahé české tradici usilovat jen o „dobrý pravopis“, máme-li parafrázovat, tu bije do očí). Věcně se tu konstatuje situace a poznání [141]založené na znalosti (korpusového) materiálu a místo mravokárného preskriptivního diktátu se tu spíše poukazuje na funkci a typy různé distribuce, zvláště v kontrastu ke konkurenčním slovům, často i na minulý vývoj. Oddíl je zvlášť graficky vyznačený šedým pozadím a upoutává hned pozornost. Takto např. heslo man obsahuje informaci o distribuci úzu ve smyslu „muž“ i „člověk“ a jeho historické odůvodnění, ale též varování před dnešním nebezpečím sexismu a doporučení se mu vyhnout užitím např. humankind pro obecný význam.

Makrostruktura NODE je poměrně prostá a rigorózně alfabetická v uspořádání tiskového zrcadla do tří sloupců většího formátu. Zrcadlo je velmi přehledně a sympaticky členěno pomocí mezer, několikerého druhu odsazení, řady typů apod. Signálem ohledu na uživatele je i přítomnost mála odkazů, a pokud se vyskytují, pak jsou jen jednostupňové a jednoduché a týkají se převážně částí hesel, ne hesel celých. S tím souvisí i už zmíněné zrušení hnízdování. Homonyma jsou číslována.

Vedle vlastních jednoslovných hesel (včetně hesel zkratkových) NODE standardně obsahuje i hesla víceslovná a podslovní. Jakkoliv je pravda, že naprostá většina encyklopedických hesel má jazykově povahu nominální, lze jistý nesystémový rozpor spatřovat v pojetí hesel víceslovných: zatímco nominální jsou řazena samostatně (srov. vedle výše uvedených ještě např. z písmene B blue shark, Blue Ridge Mountain, blue shift), jsou verbální (většinou frazémy) součástí velkého komplexu výchozího hesla jednoslovného; předpokládá to minimálně dvojí princip hledání. K heslům podslovním patří především hesla afixální registrující derivačně důležité afixy s pečlivým popisem distribuce všech jejich funkcí. Tak např. pro sufix -ite se tu eviduje celkem 8 významů a funkcí u adjektiva, pro řecké mono- se evidují dvě (vedle čtyř dnes už samostatných funkcí mono) apod.

Nový oxfordský slovník angličtiny obsahuje kromě slovníkové části překvapivě málo externí informace. Vedle jednostránkové předmluvy tu najdeme pouze devítistránkový úvod se zásadami a čtyři stránky vzorových ukázek hesel.

Závěr. V dnešní reorientaci lexikografie na korpusy a korpusové přístupy, což zdaleka neznamená jen opření se o bezprecedentně rozsáhlý, poprvé relativně dostatečný a aktuální jazykový materiál, se způsoby uvažování o koncepci slovníků výrazně mění a zmnožují. Stačí se jen podívat do některých z Proceedings posledních Euralexů, nejreprezentativnější lexikografické platformy vůbec. Poslední příspěvek z Oxfordu, jedné z nejzkušenějších lexikografických dílen na světě, je stejně tak závažným příspěvkem do lexikografické diskuze jako znamenitým, nevšedním a velmi užitečným konkrétním artefaktem.

Ústav Českého národního korpusu UK FF
nám. Jana Palacha 2, Praha 1

Slovo a slovesnost, ročník 60 (1999), číslo 2, s. 136-141

Předchozí František Štícha: K deikticko-anaforickým funkcím lexému ten

Následující Zdenka Heřmanová: Na okraj vydání prvního Stručného čínsko-českého a česko-čínského slovníku