František Čermák, Jan Králík, Karel Kučera
[Rozhledy]
Reception of present-day Czech and representativeness of a corpus
Český národní korpus (dále ČNK), budovaný v Ústavu Českého národního korpusu (ÚČNK) na Filozofické fakultě UK v Praze za podpory Grantové agentury ČR (zejména grant 405/96/K2140) a za spolupráce pracovníků z Ústavu pro jazyk český AV ČR, Matematicko-fyzikální fakulty UK, Fakulty informatiky a Filozofické fakulty MU v Brně, je koncepčně vytvářen jako co nejobecnější a největší materiálová základna k poznání českého jazyka (o typologii korpusů v tomto smyslu viz mj. Sinclair, 1994). Jedním ze základních aspektů koncepce ČNK je tudíž i otázka, jak zajistit jeho reprezentativnost, resp. vyváženost, tj. – v obvyklém pojetí – takové jeho proporce, které by optimálně odpovídaly reálnému složení jazykového úzu a typů textů v něm.
K otázce reprezentativnosti se v souvislosti s budováním korpusu přistupuje do značné míry nově. Je tu zřejmý odklon od dřívějšího pojetí (pokud vůbec bylo jako pojetí reflektováno), podle něhož byla reprezentativnost spojena s jistou optimální verzí jazyka (verzí jedině vhodnou, popř. žádoucí či dokonce ideální), reprezentovanou v jazyce dobrých autorů (šlo o hledisko odrážející preskriptivní postoje). Současně je tu ovšem i zřejmý odklon od starší představy o intuitivní přehlédnutelnosti jazyka a možnosti jeho vyčerpávajícího zachycení tradiční, převážně výběrovou excerpcí v archivu. Ani jedno není už přijatelné: pro cíle relativně všestranné deskripce jazyka se dnes obecně přijímá potřeba zachytit jazyk široce a věrně jak v jeho rozmanitých manifestacích a variacích, tak jako jev otevřený a stále proměnlivý, k jehož vyčerpávajícímu pokrytí bude vždy daleko, takže v souvislosti s tímto pokrytím, resp. zachycením lze ve skutečnosti mluvit pouze o větší či menší aproximaci a v souvislosti s výsledky pouze o větší či menší extrapolaci.
Otázku reprezentativnosti bylo na místě nově řešit mj. už při tvorbě korpusů užitých pro sestavení prvních frekvečních a retrográdních slovníků, a to zejména proto, že šlo o korpusy vysoce výběrové. Podíváme-li se však např. na jediný relativně obecný český frekvenční slovník (Jelínek – Bečka – Těšitelová, 1961), zjišťujeme, že o vyváženosti „užitého materiálu“ (s. 19 a 25) nebo o reprezentativnosti ve výše uvedeném slova smyslu se v něm vůbec nemluví; bez uvedení kritérií se pouze uvádí, že vytčené „skupiny“ mají různý rozsah, a volně se připomíná jazyková autentičnost vybraných děl se zřetelem k době jejich vzniku a reprezentativnosti užitých textů [118]„pro jistou stylovou vrstvu“. Argumentace na podporu existence různého rozsahu postulovaných skupin je vzhledem k cíli slovníku poněkud nejasná: spočívá v tvrzení, že nejfrekventovanější slova jsou všem skupinám společná a že o vyváženost počtu slov v jednotlivých skupinách není třeba usilovat ani z toho důvodu, že „slova s nízkou frekvencí se již vymykají zákonitosti a charakterizují spíše konkrétní text: jejich frekvence by nebyla o nic průkaznější, i kdybychom užili ve všech skupinách stejného počtu hesel“ (s. 25). U této frekvenční souvislosti, která byla zřejmá už v době vzniku slovníku, se další úvahy autorů zastavily, což je u průkopnického díla, zpracovávaného ručně, zcela přirozené. Od úvah na tomto stupni je ovšem ještě daleko k hledání kritérií pro stanovení oborových, žánrových aj. proporcí velkého počítačového korpusu, tj. útvaru stonásobně (a více) většího.
V následujících úvahách půjde o naznačení některých možností a poznatků jednak obecných, jednak těch, které se týkají reprezentativnosti hlavní složky ČNK (tj. složky synchronní a psané), a to v tolik potřebném kvantitativním aspektu (o kvalitativních aspektech je toho známo více, srov. např. Atkins – Clear – Ostler, 1992; Kruytová, 1992); pro svou specifičnost je zde tedy ponechána stranou diachronní složka ČNK, mluvená složka synchronní aj.
Je nepochybné, že reprezentativnost ČNK, který by měl během období přibližně tří až pěti let dosáhnout hranice 100 000 000 textových slov, popř. ji přesáhnout, bude do značné míry – třebaže ne výhradně – určována strukturou korpusu, tj. poměrným zastoupením textů z různých komunikačních oblastí, resp. textů patřících k různým modům, žánrům, typům, oborům atd. českého jazykového úzu. Přitom je zřejmé už teď, že plně, resp. vysoce reprezentativní korpus nutně nemusí (kromě lexikografů) velkou část budoucích uživatelů vůbec zajímat prostě proto, že jazyk v něm bude vždy „zprůměrován“ směrem k typičnosti úzu a výskytu, a tedy nutně na úkor atypičnosti a zvláštnosti, tedy na úkor periferie jazyka (ta v něm bude v důsledku své podstaty zastoupena vždy méně výrazně). Lze předpokládat, že zájem řady uživatelů se bude soustřeďovat jen k dílčím oblastem jazykového úzu (mnohdy jistě půjde právě o zvláštnosti, o periferii), a že tedy spíš než strukturovanost ČNK jako celku tito zájemci ocení to, že pro své speciální účely a potřeby budou moci z textů obsažených v ČNK vytvářet své vlastní a sledovanému cíli podřízené virtuální korpusy.
V této souvislosti lze pak mluvit o dvojí primární specifikaci pojmu reprezentativnost: ČNK usiluje o reprezentativnost vztaženou ke všem formám jazyka obecně (pokud ovšem jsou v dostatečném rozsahu dostupné v elektronické podobě); proti tomu stojí reprezentativnost korpusového materiálu konkrétního badatele vztažená k cíli, který sleduje. V dalším nás bude zajímat otázka reprezentativnosti v její obecné podobě (srov. i Čermák, 1995, s. 124n.). Dodejme jen na okraj problematiky virtuálních korpusů, že i u nich zásadní metodologickou otázkou, před kterou bude každý badatel nutně stát, zůstává identifikace souboru kritérií pro výběr textů, který je vzhledem ke sledovanému cíli optimální (i tady bude třeba hledat odpovědi na staronové otázky, jako např. zda se zaměřit na hojný a typický výskyt jevu, nebo naopak na výskyt průměrný a v jistém smyslu i šíře platný ap.). Odpovědnost za výběr však bude v tomto případě spočívat plně na uživateli, stejně tak jako věrnost popisu jazyka vyplývající z horší či lepší volby jeho subkorpusu.
[119]Jak se zdá, možnost vyjít při řešení naznačených otázek z žánrové typologie textů (tj. jít cestou, která se intuitivně nabízí jako nejpřirozenější a nejschůdnější), je v současné době pouhou chimérou. V lingvistice textu se s takovou typologií, resp. typologiemi, pracuje především v teoretické rovině a v mnoha směrech vlastně jen odhadem od zeleného stolu. Pokud je autorům známo, není k dispozici žánrová typologie v takové podobě (tj. v podobě exaktní a vyčerpávající, opřené o extenzívní výskyt ve skutečnosti), která by mohla představovat spolehlivé východisko pro strukturaci korpusu, a tedy i ČNK. Tomu ostatně odpovídá i skutečnost, že z této základny žádný z velkých korpusů koncepčně nevychází.
Při střízlivém pohledu se vůbec ukazuje, že dosavadní starší zahraniční i domácí zkušenosti a přístupy, především z oblasti nekorpusové – ať už textové, nebo lexikografické (lexikální archivy, frekvenční slovníky aj.) – představují pro budování českého korpusu jen omezeně využitelnou oporu. Kupodivu se však ukazuje i to, že reprezentativnost korpusu je problémem, který dosud nebyl uspokojivě (tj. dostatečně zdůvodněně a nesporně) vyřešen ani v žádném z četných korpusových projektů existujících v různých zemích světa; v řadě vlivných koncepcí se dokonce rezignovaně přiznává nemožnost reprezentativnosti v pravém slova smyslu vůbec dosáhnout (J. Sinclair, jeden z průkopníků korpusové lingvistiky a spiritus agens stojící za Bank of English, je přitom zastáncem jen zdánlivě protikladného názoru neomezeného růstu korpusu). Jak se zdá, žádná z metod až dosud využitých při budování korpusů není přijatelná bez výhrad. Metoda náhodných textových vzorků (které jsou samy o sobě stratifikované či proporční, tj. vázané na sledované proporce v materiálu), aplikovatelná spíše u malých korpusů, se obvykle uplatňuje v rámci předem daných žánrů (viz např. Těšitelová, 1983; Těšitelová – Petr – Králík, 1986); pro vymezení těchto žánrů je však tak jako tak třeba mít objektivní kritéria. Podobně je značně nespolehlivé založit reprezentativnost korpusu výlučně například na přehledech vydávaných knih a periodik: je tu obvykle příliš mnoho neznámých veličin (např. výše nákladu jednotlivých publikací, úplnost publikovaných přehledů aj.), a otázka kritérií volby z těchto dat zůstává tedy i zde stále otevřená, tj. neřešená.
Uveďme příklady různých řešení v korpusech třetí generace, tj. v korpusech velkých (zhruba 50–250 miliónů slov či více) a nejednostranných (pro ilustraci: za jednostranný lze považovat např. stomiliónový kanadský Hansard zaměřený jen na bilingvní přepis parlamentních jednání). U těchto v současnosti největších korpusů zjišťujeme v zásadě dvojí přístup: buď jde o korpusy programově rezignující na jakoukoli vyhraněnou koncepci reprezentativnosti, anebo o korpusy, které o reprezentativnost v určitém pojetí usilují. K těm prvním, nehomogenním, patří např. Frantext (složený výlučně z krásné literatury), kterému se svým důrazem na literární texty (celé 2/3 rozsahu) velmi blíží připravovaný korpus polský, srov. Węgrzynek, 1995; patří sem dále německý korpus v Mannheimu a vlastně i největší současný korpus vůbec, tj. Bank of English v Birminghamu (přes 250 miliónů slov). Některé korpusy tohoto typu se pro svou volnější strukturu ani korpusy nenazývají: k těm patří např. švédský Språkbanken v Göteborgu (obdobný mannheimskému; rozsah 40 miliónů slov), srov. Gellerstam et al., 1994.
Ke korpusům založeným na určitém pojetí reprezentativnosti patří např. dánský korpus (40 mil.) a British National Corpus (BNC, 100 mil.); o jejich percen[120]tuálním složení se již psalo, mj. i u nás (srov. Čermák, 1995, s. 125n.; Norling-Christensen, 1992; Burnard, 1995; u BNC byla konečná procenta lehce modifikována). Ani u těchto korpusů se však neuvádějí plně ověřená kritéria pro volbu proporcí a výstavbu struktury korpusu; například BNC byl v podstatě apriorně rozdělen na 75 % informativních a 25 % imaginativních textů a při jeho výstavbě se postupovalo metodou vzorků z dostupných soupisů vydávané literatury (seznamy bestsellerů).
Srovnávací studii 18 existujících korpusů a teoretických postojů ke složení korpusu podnikla J. G. Kruytová (1993, zvl. tabulka 2 v příloze), která dobře ukázala panující různost přístupů, a tedy různost hledání cesty. Vedle přehledu typologií textu (analyzovala 27 přístupů) uvádí i následující přehled, v němž jsou shrnuty výsledky srovnání korpusů z hlediska jejich oborového a tematického složení (v závorkách, v klesajícím pořadí, uvádíme celkový počet kladně zastoupených názorů na včlenění dané oblasti či přímo už korpusových realizací, což ovšem samo o sobě nevypovídá nic o skutečných proporcích korpusů): náboženství (13), technika (12), právo (11), sport (11), umění (9), politika (8), historie (8), medicína (8), filozofie (7), ekonomie (7), vzdělání (7), psychologie (7), věda (7), sociologie (7), volný čas (7), civilizace (6), fyzika (6), biologie (6), matematika (5), domácnost (5), cestování (5), antropologie (5), armáda (5), média a komunikace (5), jazyk (5), literatura (4), architektura (4), móda a odívání (4), počítače (4), zemědělství (4), geografie (4), ekologie (3), doprava (3), chemie (3), finance (3). Neúplnost tohoto výčtu by nepochybně bylo možno snadno odstranit zařazením dalších oborů; vzhledem k tomu, že uvedené údaje z nemalé části vycházejí z analýzy i velmi malých korpusů (např. jednomiliónový americký Brown Corpus), které prostě nemůžou obsáhnout všechno, je však současně zřejmé, že před opravdu velkými korpusy stojí tato otázka jako dosud nevyřešená.
D. Biber ve své vlivné a bohatě materiálově a statisticky dokumentované studii (1993) posouvá situaci reprezentativnosti do poněkud optimističtější, nikterak však jednoduché podoby. V jeho pojetí je reprezentativnost funkcí rozsahu a rozmanitosti kolekce korpusových textů a je měřitelná stupněm, ve kterém vzorkový korpus obsahuje plnou variabilitu populace textů. Tuto variabilitu je tudíž třeba napřed zjistit. V zásadě jde tedy o relační přístup, který je vázán na úhrn sledovaných, resp. zjišťovaných parametrů dvojího druhu. Před vlastní výstavbou korpusu je nutno podniknout jak teoretický výzkum situačních parametrů, které mezi typy textů variují, tak identifikovat parametry jazykové, které má korpus sledovat; tyto teoretické závěry je pak třeba doplnit o empirická zjištění z tzv. pilotního korpusu. Skutečná a realistická výstavba reprezentativního korpusu (tento názor se dnes široce přijímá) tak může postupovat jen v řadě následných cyklických kroků, v nichž každý další krok je založen na analýze, ověření a revizi sestavy parametrů z kroku předchozího. Jinými slovy, první návrh reprezentativní podoby korpusu je – jen zdánlivě paradoxně – proveditelný až po první realizaci korpusu, po které může nastoupit příslušná analýza. V těchto souvislostech uvádíme i zpřístupnění první ukázky ČNK (o rozsahu 20 000 000 slov) na počítačové síti Internet (URL http://ucnk.ff.cuni.cz/cnc) začátkem roku 1996. Tato první, dosud nevyvážená část korpusu, která je (ovšem jen z čistě kvantitativního hlediska) sama o sobě [121]větší než archiv Ústavu pro jazyk český AV ČR budovaný několika generacemi, nyní slouží nejen běžným uživatelům, ale i jako ověřovací materiál při rozhodování o řadě následných metodologických otázek, mezi které patří i konkretizace pojmu reprezentativnosti.
V řadě analýz včetně Biberovy se v poslední době konkrétně operuje (srov. i Čermák, 1995) sledováním zastoupenosti recepce a percepce (resp. produkce) jazyka, tj. způsobu a míry užívání jazyka (obvykle několika málo autorů, novinářů apod. pro široké publikum, které takto jazyk „přijímá, recipuje“) na jedné straně, a na druhé straně způsobu a míry produkce jazyka a jeho textů ze strany co nejširšího okruhu takto aktivních uživatelů (kteří ho přitom, jak se v tomto přístupu říká, široce „percipují“ a především typicky reflektují). Obecněji a v jiném pohledu ovšem platí, že recepce pokrývá oblast textů jazyka prostě čteného a poslouchaného, kdežto produkce oblast textů jazyka psaného a promlouvaného. Vzhledem k těmto rozdílům je pak třeba také specifikovat pojem reprezentativnosti. Teoreticky je tu situace složitější: omezíme-li totiž adresáty, resp. receptory i produktory jazyka jen bipolárně na jedné straně na blíže nespecifikované relativně malé množství A (včetně, aspoň v teorii, jediného uživatele jazyka) a na druhé straně na velké množství B (nikdy tu ovšem nepůjde o skutečně celonárodní, resp. celopopulační rozsah), pak jen z naznačeného hlediska recepce (R) je nutné uvažovat o těchto kombinacích v rámci (R):
(1) A → A | (málo produktorů pro málo receptorů, tedy zvl. soukromé, úzce vymezené, sektářské a další podobné oblasti komunikace), |
(2) A → B | (málo produktorů pro hodně receptorů, tj. běžná situace médií, knižní produkce aj.), |
(3) B → A | (hodně produktorů pro málo receptorů, tedy situace, která se obvykle nevyskytuje), |
(4) B → B | (hodně produktorů pro hodně receptorů, tedy opět situace nerealistická, kdy by téměř každý psal pro téměř každého). |
Ukazuje se, že běžné pojetí recepce (pojetí ve smyslu uvedené kombinace (2), tj. málo produktorů pro hodně receptorů, viz též výše) je samo o sobě rozumně realistické, i když je vlastně zúžené: necháme-li stranou nerealistické případy (3) a (4), zůstává ovšem nejasná otázka proporcí zastoupení typu (1), reprezentovaného v psané podobě především soukromou korespondencí. Podobně bychom mohli kvantitativně rozčlenit do čtyř skupin i případy percepce, resp. produkce (P), čímž by došlo nikoli k prostému zdvojení uvedeného schématu, nýbrž k doplnění opačného hlediska. Situace je tu však obtížně sociologicky mapovatelná (pokud je její zmapování vůbec proveditelné), a navíc o poměru recepce a percepce chybějí i elementární poznatky. Zatím jediný pokus o zavedení obou aspektů do výstavby korpusu představuje dánský korpus, který poměr recepce a percepce stanovuje blíže nespecifikovaným odhadem asi 9:1 (viz Čermák, 1995, s. 125). BNC se naopak snaží o jistou reprezentativnost v oblasti produkce (percepce) z hlediska typu autora (jeden autor/autorský tým/více autorů aj.), jeho pohlaví, věku a široce charakterizovaného místa původu. Tomu odpovídá i sledované rozložení proporcí v oblasti recepce, kde stojí v centru zamýšlený věk receptora (čtenáře), jeho pohlaví a úroveň vzdělání.
S cílem získat objektivnější podklady pro rozhodování o tom, jak v ČNK budou zastoupeny různé komunikační, stylové a další oblasti, realizuje ÚČNK dílčí sondy (šetření, ankety) zaměřené na různé skupiny českých mluvčích (ke shromažďování informací pomocí dílčích šetření vedou především finanční a personální možnosti ÚČNK). První taková orientační dílčí sonda, zaměřená na strukturu recepce češtiny (především psané), byla realizována na zakázku pro potřeby ČNK koncem roku 1994 jako běžný sociologický výzkum. Byl realizován katedrou sociologie FF UK pod vedením doc. dr. J. Buriánka, CSc., a měl podobu standardního dotazníkového šetření na vzorku 168 respondentů různého věku, povolání atd. z Prahy, pražského okolí a některých venkovských oblastí. Respondenti při tomto šetření odpovídali na 16 základních (dále členěných) otázek dotazníku koncipovaných tak, aby odpovědi obsáhly i subjektivní hodnocení respondenta např. o rozložení (procentu) druhů recepce, o pořadí důležitosti ap. Z výsledků vybíráme:
V průměru věnovali respondenti celkové recepci jazyka prostřednictvím četby, sledování televize a poslechu rozhlasu úhrnem 20,22 hodin týdně.
Souhrn recepce českého jazyka (%) | |||||
noviny | časopisy | beletrie | poezie | televize | rozhlas |
13,5 % | 10,9 % | 9,1 % | 1,9 % | 33,9 % | 30,6 % |
V celkové recepci jazyka prostřednictvím četby a poslechu sdělovacích prostředků připadá na četbu 51,6 %, na sledování televize 25,1 % a na poslech rozhlasu 23,3 %.
Struktura četby a poslechu u pravidelných čtenářů a posluchačů (%) | |||
televize | 25,1 % | časopisy | 15,6 % |
rozhlas | 23,3 % | beletrie | 13,2 % |
noviny | 21,8 % | poezie | 1,0 % |
Recepce v rámci četby (oddechové, informativní i odborné), sledovaná primárně a opřená i o řadu specifických otázek, byla dále strukturována takto:
Souhrn recepce čteného jazyka (%) | ||||
noviny | časopisy | beletrie | poezie |
|
38.1 % | 30.8 % | 25.7 % | 5.3 % | suma: 100 % |
Pokud jde o strukturu čtených odborných témat v knihách, byly sledovány kategorie přírodovědné, technické, společenskovědní, politickoekonomické, náboženské a jiné. Četba odborných časopisů měla velmi blízkou tematickou strukturu.
Struktura čtených témat (%) | |||||
přírod. | techn. | společ. | polit. | nábož. | jiné |
knihy | |||||
19,1 % | 12,8 % | 25,2 % | 14,0 % | 11,9 % | 16,8 % |
časopisy | |||||
16,4 % | 15,6 % | 21,6 % | 21,9 % | 11,5 % | 12,9 % |
Šíři respondentského zájmu dobře dokresluje výčet časopisů s jedničkovými frekvencemi uvedení v dotazníku: ABC, Auto-moto revue, Autospektrum, Baumeister, Betty, Betynka, Bratrstvo, Bydlení, CAD, Chovatel, Čs.psychiatrie, Čs.psychologie, [123]Diana, Divadelní noviny, Elle, Energetik, Film a doba, Fitness, Gema, Hokej, Informatika, Inzertní noviny, Kampak, Komenský, Konfrontace, Kulturní přehled, Linda, Linka 158, Luna, Magazín Blesku, Magazín RP, Maximagazín pro ženy, Melodie, Montana, Muscle & Fitness, Muzikus, Myslivost, Národní pojištění, Náš dům, Naše řeč, NEI-report, Noviny Komerční banky, Peloton, Pes-přítel člověka, Playboy, Polygraf, Pop-Life, Popron, Právník, Print-Publishing, PRO, Programátor, Radioengineering, Regena, Regina, Ring, Říše hvězd, Řízení výroby, S’94, Školství, Slaboproudý obzor, Softwarové noviny, Stavitel, Stereo, StereoVideo, Teologické listy, Turistika a hory, UM, Veletržní noviny, Vesmír, Voják, Věda a technika mládeži, Výběr, Zdravotnické noviny, Zpravodaj Diakonie, Zpravodaj Nadace Býčí skála, Ženský magazín, Žralok.
Těchto několik výsledků vybraných z mnohostranně zpracované orientační sondy publikujeme – přes jejich omezenost – proto, že jde o vůbec první známá širší zjištění recepce jazyka (nejen češtiny); v korpusové lingvistice se podobná sonda dosud nerealizovala. V žádném případě ovšem nejde o zjištění, která by sama o sobě měla výhradní či určující vliv na strukturu budovaného korpusu; získané výsledky budou pouze zahrnuty do souboru dalších informací relevantních pro rozhodování o budoucí skladbě ČNK.
K těmto dalším informacím, které poslouží jako dodatečná kritéria, budou patřit mj. údaje o vydávaných knihách, o čtenosti různých skupin periodických i neperiodických publikací podle údajů veřejných knihoven, o sledovanosti různých druhů pořadů v rozhlase a televizi aj. Pracovníci ÚČNK, interní i externí, se jako tvůrci korpusu navíc chtějí pokusit vzít podle možnosti v úvahu i kvalifikované názory lingvistů, tedy hlavních (zdaleka ne však jediných) předpokládaných uživatelů korpusu; v současné době se ÚČNK na některé z nich obrací se žádostí o formulaci jejich názoru (pokud možno kriteriálně či výzkumně zdůvodněného). Vypracování detailní struktury korpusu se tak jeví jako dlouhodobější úkol, jehož řešení se bude precizovat během výstavby ČNK. Dynamická povaha budovaného díla ostatně podobnou precizaci a případnou modifikaci velmi dobře umožňuje. Je třeba si uvědomit, že ČNK se buduje a bude budovat kontinuálně dál, bude tudíž modifikovatelný i v budoucnosti, kdy se do něho můžou promítat i poznatky z výzkumů budoucích.
Realisticky lze ovšem očekávat, že v otázce složení ČNK (ani jiného korpusu) nedojde v lingvistické obci k úplné shodě. Stejně tak jako je řada názorů na to, co to je jazyk (v našem případě psaný), bude nepochybně i řada názorů na to, jak by měla vypadat jeho korpusová reprezentace. Že je to však pojem relační, a tedy proměnlivý, i to, že je ho třeba opřít o objektivní kritéria (nikterak jednoduchá a už vůbec ne řešitelná prostou diskuzí či dohadováním), že ho tudíž nelze opřít o subjektivní dojmy, intuici, apriorní představy nebo dokonce předsudky, se pokoušel nastínit tento příspěvek.
Je třeba znovu zdůraznit, že ve snaze předem vyjít vstříc i těm, kdo z odlišných koncepčních důvodů nebo vzhledem k specifickému zaměření vlastního výzkumu budou chtít pracovat s korpusem odlišného složení, než bude mít ČNK, chtějí autoři korpusu plně využít výhod variabilního korpusového uspořádání jazykového materiálu a umožnit vytváření uživatelsky definovaných tzv. virtuálních korpusů, [124]zmiňovaných výše. Do budoucna se navíc počítá i s tím, že vedle samotného korpusu s propracovanou strukturou bude k dispozici také rozsáhlý volnější archiv různých textů nezařazených do ČNK; z nich (a ovšem i z textů ČNK) pak bude možno vytvářet korpusy v podstatě libovolného složení. Tato otevřenost ČNK ve smyslu jeho dalšího materiálového růstu a spolu s ní výše uvedená perspektiva postupné aproximace k optimální reprezentaci naznačují budoucí možnosti a stavy, které přítomná doba je schopna realizovat jen zčásti. Jiná řešení, jak se zdá, se nenabízejí.
LITERATURA
ATKINS, S. – CLEAR, J. – OSTLER, N.: Corpus Design Criteria. Literary and Linguistic Computing, Vol. 7, 1992, s. 1–16.
BIBER, D.: Variation Across Speech and Writing. Cambridge 1988.
BIBER, D.: Representativeness in corpus design. LLC, 4, 1993, s. 243–257.
BURNARD, L: British National Corpus. Users Reference Guide for the British National Corpus. Oxford University Computing Service, Oxford 1995.
ČERMÁK, F.: Jazykový korpus: Prostředek a zdroj poznání. SaS, 56, 1995, s. 119–140.
GELLERSTAM, M. – SJÖGREEN, CH.: Språkbanken. En språklig referensdatabas. Göteborgs universitet 1994.
JELÍNEK, J. – BEČKA, J. V. – TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.
KRUYT, J. G.: Evaluative Report on Design Criteria for Corpora Construction I: Selection Principles. Instituut voor Nederlandse lexicologie, Leiden 1992.
KRUYT, J. G.: Design Criteria for Corpora Construction in the Framework of a European Corpora Network. Final report. Instituut voor Nederlandse lexicologie, Leiden 1993.
NORLING-CHRISTENSEN, O.: Preparing a text corpus. Computational tools and methods for standardizing, tagging and structuring text data. In: R. Kiefer et al., Papers in Computational Lexicography COMPLEX ’92. Budapest 1992, s. 251–259.
SINCLAIR, J.: Corpus Typology. Draft – Work in Progress. Eagles Document EAG-CSG/IR-T1.1, 1994.
TĚŠITELOVÁ, M. a kol.: Frekvenční slovník češtiny věcného stylu. ÚJČ, Praha 1983.
TĚŠITELOVÁ, M. – PETR, J. – KRÁLÍK, J.: Retrográdní slovník současné češtiny. Academia, Praha 1986.
WĘGRZYNEK K.: Projekt komputerowego korpusu współczesnych tekstów polskich. Język polski, 75, 1995, s. 332–341.
Slovo a slovesnost, ročník 58 (1997), číslo 2, s. 117-124
Předchozí Jana Hoffmannová: Pražské dialogy
Následující Marie Svobodová: Forenzní lingvistika: obsah a možnosti
© 2011 – HTML 4.01 – CSS 2.1