František Štícha
[Recenze]
Český národní korpus. Úvod a příručka uživatele
Krátce před koncem 20. století byl v Ústavu Českého národního korpusu při Filozofické fakultě UK vytvořen počítačový korpus psaných textů současné češtiny, který dostal název SYN2000 (SYN znamená ‘synchronní’), má sto miliónů slovních forem a lze ho považovat za první úspěšný krok v budování korpusů reprezentujících – zejména pro lingvistický výzkum – český národní jazyk v celém jeho žánrovém spektru. Půjde přitom o reprezentaci nejen konkrétní podoby parolové, ale skrze ni a v ní obsaženou soustavu obecných hodnot, které se budou stávat předmětem soustavného lingvistického výzkumu, také o reprezentaci onoho saussurovského, často teoretiky zpochybňovaného, nicméně jako lingvistické abstraktum nepochybně tak či onak existujícího ‘langue’. Nedlouho poté, co jsme začali zvědavě a s mnohými očekáváními nahlížet do tohoto fascinujícího zdroje poznání přirozeného jazyka a pozvolna se počali obeznamovat s tím, co a jak v něm lze nalézat, vydali jeho tvůrci, vedeni entusiastickým F. Čermákem, příručku pro jeho uživatele. O ní tu podáváme krátkou zprávu.
Příručka je rozvržena do tří oddílů. V prvním z nich nás autoři seznamují s fenoménem korpusu a korpusové lingvistiky, přičemž sebevědomě tvrdí, že „lépe než prostřednictvím korpusu nelze dnes jazyk při studiu uchopit“, a o korpusových datech říkají, že jsou typická, neselektivní a objektivní, snadno získatelná a rychle přístupná. V tomto úvodním oddílu se dále mj. dozvíme, jak je korpus členěn, jaké je jeho žánrové složení a jak je budován, tj. jak jsou získávány texty a jak jsou tyto texty zpracovávány, evidovány a značkovány.
Oddíl druhý je svým způsobem hlavní částí příručky; vede nás totiž krok za krokem v naší práci s korpusem, a to nejen tak, že popisuje jednotlivé vyhledávací a zpracovávací funkce manažeru, ale dává nám i praktické rady, jak při hledání toho či onoho jevu nejlépe postupovat. Např. čteme na s. 42 tento návod: „Hledáme-li všechna adjektiva ve jmenném tvaru mužského rodu životného i neživotného v singuláru, bude zadání a výsledek vypadat následovně: [tag=“ACYS.*“].“ Anebo: jak postupovat, chceme-li třeba vyhledat všechna slova začínající na červ-, ale nechceme, aby nález obsahoval slova červen a červenec. Jde při tom pochopitelně o konkrétní demonstraci obecné [74]vyhledávací funkce. Návody se dále týkají např. toho, jak získané doklady abecedně utřídit nebo jak vyhledávat struktury obsahující jednu či několik kategoriálních proměnných pomocí tzv. grafické tvorby dotazu. Vyhledávací a zpracovávací funkce (k nim patří např. abecední třídění) jsou v programu uspořádány do šesti skupin, tzv. ‘menu’, která se nazývají: ‘soubor’, ‘korpus’, ‘dotaz’, ‘konkordance’, ‘zobrazení’ a ‘výběr’; k nim je ještě připojeno menu ‘nápověda’. Popis těchto menu tvoří jednu součást druhého oddílu příručky. Na závěr druhého oddílu jsou připojena dvě upozornění, co v korpusu nenajdeme a co v něm naopak najdeme. K tomu snad jen jednu malou technickou poznámku: že lze korpusu používat i např. jako encyklopedie, jakkoli není k tomuto účelu budován, a že se z něj lze např. dozvědět, jaké druhy ‘mánií’ v našem životě existují, od (abecedně) agentománie přes eurománii až k ufománii, by možná patřilo spíše do poučení o tom, co v korpusu najdeme, než do upozornění, co v něm nenajdeme. Nikoli technická kritická námitka se týká jednoho detailního morfologického jevu: tvaru 1. pl. adjektiv s příponou -ck- a -ičk-, vykládaného na s. 90; tento výklad je poněkud nejasný a kategorické tvrzení, že tvary typu maličtí (místo maličcí) jsou nesprávné, je – právě z hlediska doloženého úzu – sporné a připomíná chtě nechtě – paradoxně – brusičství, jakkoli pracovníci korpusu jsou jistě vše jiné než brusiči. Směrodatný tu může být až zjištěný poměr jednotlivých tvarů typu maličcí : maličtí, hezoučcí : hezoučtí; pokud bychom zjistili výrazné převládání druhého tvaru, nemohli bychom přece tvrdit, že tento tvar je nesprávný. Jakkoli patrně obecně neplatí, že všechno to, co dělá (i výrazná) většina normálních vzdělaných lidí, musí být automaticky považováno za správné, o užívání jazyka to patrně – alespoň ve většině případů – nejspíš platí. I toto však nechť je předmětem korpusových šetření a následných lingvistických úvah. Pokud by tvary typu maličtí nepřevládaly nad tvary typu maličcí, pak bychom vzhledem k existujícím systémovým vazbám mohli tvrdit, že tvary typu maličtí jsou nesprávné. Píše-li se v příručce, že „správná koncovka -čcí- je v korpusu pouze 15x“, může to vypadat, že „nesprávná“ podoba s koncovkou -čtí- je mnohem častější, což patrně není pravda, už proto, že oba tyto tvary mají poměrně velmi nízkou frekvenci.
Třetí oddíl příručky tvoří soubor faktografických a dokumentačních příloh. Nalezneme tu mj. seznam zkratek kategorií (žánrů) jednotlivých textů v korpusu obsažených jako ‘ver’ pro básně, ‘nov’ (angl. ‘novel’) pro román, ‘fac’ pro literaturu faktu atd., seznam kódů identifikujících text, např. emoke pro Legendu Emöke Josefa Škvoreckého, holand pro Obrázky z Holandska Karla Čapka atd.
Příručka uživatele Českého národního korpusu je napsána přehledně a snad až na několik málo výjimek i pro počítačového laika jasně a srozumitelně. Vyskytne se tu několik drobných nedopatření, která však pozorný čtenář snadno odhalí; např. na s. 56 je chyba v reprodukci grafu dotazu, v němž druhým atributem je ‘tag’, nikoli ‘word’.
Příručku uživatele Českého národního korpusu lze doporučit všem těm lingvistům, kteří chtějí nejen o jazyku teoretizovat, ale také ho skutečně poznávat.
Ústav pro jazyk český AV ČR
Letenská 4, 118 51 Praha 1
Slovo a slovesnost, ročník 63 (2002), číslo 1, s. 73-74
Předchozí Lucie Římalová: Alexander Levitsky – Masako Ueda (eds.): Brown Slavic Contributions. Volume XI: Modern Czech Studies
Následující Karel Kučera: Sborník rozprav k sedmdesátým narozeninám univ. prof. Ivana Lutterera, CSc.
© 2011 – HTML 4.01 – CSS 2.1