Časopis Slovo a slovesnost
en cz

Český národní korpus se zpřístupňuje

František Čermák

[Kronika]

(pdf)

An easier acces to the Czech National Corpus

Spojeným úsilím řady univerzitních pracovišť i pracovišť AV ČR soustřeďovaným do Ústavu Českého národního korpusu FF UK v Praze se po několika letech podařilo dokončit první etapu práce a nabídnout r. 2000 její výsledky naší i zahraniční odborné veřejnosti. Pod názvem SYN2000 se představil náš dosud největší informační zdroj, synchronní psaný korpus v rozsahu 100 miliónů slov, tedy zdroj mnohonásobně bohatší než např. lexikální archív ÚJČ AV ČR, donedávna u nás největší. Tento zdroj, efektivně obsluhovaný nově vyvinutými a sofistikovanými počítačovými programy, umožňuje snadné získání podkladových informací pro nejrůznější druhy výzkumu a aplikací, včetně lexikografických, uspokojí ale i zcela prosté dotazy ověřující si aktuální a objektivní stav dnešní češtiny a skrze ni i informace o celé společnosti a jejím dění. SYN2000, který se dnes řadí k předním světovým korpusům (z nichž málokterý je však otevřený a běžně dostupný), se už začíná osvědčovat v řadě výzkumů, rešerší i studentských prací u nás doma i v zahraničí a začne se používat i na středních školách.

Český národní korpus (ČNK) je projekt akademický, a proto se přístup k němu umožňuje každému odbornému zájemci včetně studentů, a to na FF UK ve zvláštní korpusové pracovně nebo po internetu na adrese ucnk.ff.cuni.cz, kde lze nalézt i další podrobnosti o přístupu k němu a o jeho užívání včetně jeho zmenšené, plně veřejné podoby v rozsahu 20 miliónů slov, vhodné pro zběžné potřeby. V projektu ČNK, podporovaném řadou grantů a sponzorů, se připravují a postupně budou zveřejňovat i jeho další, tj. novější a rozšířené podoby včetně korpusu diachronního, mluveného a nářečního. Umožňuje se tak postupně jeho souvislé a kontinuální mapování i napříč časem.

ČNK nevídaně ulehčující práci s fakty nelingvistovi i lingvistovi je předpokladem i pro její zkvalitnění a zobjektivnění a lze doufat, že všechny budoucí soudy o češtině se už bez něj neobejdou. Avšak množství informací, které se tu nabízí, není nikterak snadné získávat a zpracovávat a jeho tvůrci budou proto zavázáni každému, kdo jim nabídne nebo umožní přístup k jakémukoliv druhu elektronických textů a jazykových dat. Další růst a zkvalitňování ČNK je koneckonců v zájmu všech, protože tak zároveň prospívají i sami sobě.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, 116 38 Praha 1

Slovo a slovesnost, ročník 63 (2002), číslo 1, s. 80

Předchozí Olga Martincová: Za Josefem Filipcem

Následující Frederick J. Newmeyer: Formal linguistics and functional explanation: Bridging the gap