Časopis Slovo a slovesnost
en cz

Tematická reprezentativnost korpusů

Michal Šulc

[Discussion]

(pdf)

Thematic representativeness of corpora

Reprezentativnost korpusů je idea obecně velmi obtížně podchytitelná a s určitými přestávkami již po dlouhou dobu diskutovaná (srov. zde stať J. Králíka, s. 38–53).

První otázkou, kterou by bylo možno si položit, je otázka, do jaké míry korpus odpovídá (nebo v budoucnu bude odpovídat) jazyku – jeho produkci i recepci – z hlediska média přenosu, tedy poměru mezi jazykem mluveným a slyšeným versus psaným a čteným. Současné zkušenosti s vytvářením mluvených korpusů, s jejich zpracováním a především s jejich velkou časovou a finanční náročností ukazují, že texty mluvené a psané budou vzhledem k poměru, ve kterém se vyskytují v běžném životě (odhady hovoří o 90–95 % mluveného jazyka a pouhých 10, ale možná spíš jen 5 % jazyka psaného), pravděpodobně vždy nevyvážené a že korpusy, ve kterých by tento poměr odpovídal realitě života, budou alespoň v dohledné době několika desítek let příliš malé na to, aby poskytly dostatek materiálu pro základní výzkum na všech jazykových rovinách. Jistě budou pomocníkem pro rozlišení frekvence užití v oblasti mluveného a psaného jazyka, jistě budou velmi cenným zdrojem pro specializovaná studia mluveného jazyka, např. morfologická či syntaktická, která jsou velmi potřebná, pro lexikografická studia však podobné korpusy nebudou ještě velmi dlouhou dobu dostatečně veliké.

Je tedy třeba počítat s tím, že nejméně několik následujících desetiletí budou všechny větší korpusy odrážet především jazyk psaný. (Nejde o nic nového, i náš starší typ materiálové základny pro lexikografii – lístkový katalog – zpracovával téměř výhrad[54]ně češtinu psaných textů, tento fakt je jen třeba při různých studiích brát v úvahu.) Také projekt Český národní korpus (ČNK) obsahuje převážně texty (původem) psané.

Zcela samozřejmě se otázka reprezentativnosti hned ve svém dalším kroku rozpadá na problém objemu a obsahu. Jak velký musí být korpus, aby ho bylo možno vzhledem k cílovému užití nazvat užitečně reprezentativním? Jak zajistit, aby ve velkých všeobecných korpusech byla obsažena co nejširší tematická škála?

Velikost korpusů vycházela v jejich úplných začátcích spíše z lidských, technických a finančních možností prvních korpusových lingvistů a pohybovala se od několika set tisíc k přibližně dvěma milionům slovních výskytů. Byla na nich sice podniknuta zajímavá zkoumání morfologická i jiná, velmi brzy se však ukázalo, že pro základní výzkum, který by se neomezoval na nižší jazykové roviny, je třeba velikosti nepoměrně větší. V dnešní době je za (pravděpodobně dočasný) standard považována velikost 100 milionů slovních výskytů, kterou má snad nejcitovanější korpus 90. let, British National Corpus. Tuto velikost nabízí i první varianta reprezentativního korpusu současné psané češtiny SYN2000, zpřístupněná veřejnosti v roce 2000.

Na obsahové měřítko, tedy na zachycení široké škály témat, jedni při budování korpusů rezignují (např. Bank of English, Frantext), zatímco druzí se snažili a snaží o jistou proporcionalitu a reprezentativnost.

Pracovníci jednomilionového Survey of English Usage (SEU), nejvýznamnějšího předchůdce dnešních elektronických korpusů, dělili psaný text do následujících kategorií:

 

text tištěný

 

1 informativní

 

1.1 denní tisk, 1.2 vědecké texty, 1.3 administrativa, 1.4 právo

 

2 výukový

 

3 agitační

 

4 imaginativní

text netištěný

 

1 korespondence

 

1.1 soukromá, 1.2 nesoukromá

 

2 deníky

 

3 souvislý text

 

3.1 imaginativní, 3.2 informativní

text psaný, určený k přednesu

 

1 různé mluvené projevy

 

2 hry

 

3 zprávy

 

4 slavnostní projevy

 

5 příběhy

     

 

Autoři prvního elektronického korpusu, dodnes vlivného jednomilionového Brown University Standard Corpus of Present-Day Edited American English (Brown Corpus), kategorizovali své texty následovně:

 

informativní

1 denní tisk – reportáže

 

1.1 politické, 1.2 sportovní, 1.3 společenské, 1.4 krátké zprávy, 1.5 ekonomické, 1.6 kulturní

[55]2 denní tisk – úvodníky

 

2.1 institucionální, 2.2 osobní

3 denní tisk – recenze (knihy, divadlo, tanec, hudba)

4 náboženství

5 řemesla a koníčky

6 lidové tradice

7 krásná literatura, životopisy, paměti

8 odborné texty

 

8.1 přírodní vědy, 8.2 medicína, 8.3 matematika, 8.4 sociologie a psychologie, 8.5 politika, právo a výchova, 8.6 společenské vědy, 8.7 technika a strojírenství

9 různé

 

9.1 vláda, 9.2 nadace, 9.3 zprávy průmyslových podniků, 9.4 univerzitní materiály, 9.5 zprávy podnikových orgánů

 

imaginativní

10 romány a povídky

11 detektivní romány a příběhy s tajemstvím

12 sci-fi

13 dobrodružné romány a westerny

14 milostné romány a romance

15 humor

 

Jeden z nejcitovanějších korpusů poslední doby a v letech 1991 až 1995 nejprestižnější projekt anglické lingvistiky, British National Corpus, pracuje s velkými a tematicky širokými oblastmi. Základní dělení na literaturu imaginativní a informativní sice nemohl ponechat jako nejjemnější možnou distinkci, o mnoho více však ze svého projektu nezveřejnil. Literaturu informativní dělí na osm specifičtějších „domén“ (domain): 1. umění – 2. víra a myšlení – 3. obchod a finance – 4. volný čas – 5. čistá věda a přírodní vědy – 6. aplikované vědy – 7. sociální vědy a ekonomie – 8. dění ve světě.

Jinou možností je vytvořit jemné síto mnoha vědních oborů. Tato varianta pohledu na tematické oblasti byla zvolena v Ústavu Českého národního korpusu (ÚČNK), byť si jeho pracovníci byli vědomi obtíží a problémů z takového eventuálně zvoleného přístupu vyplývajících. I dnes se však zdá, že pracovat jen s pěti nebo deseti kategoriemi by znamenalo zůstat v půli cesty, a dnešní obtíže s kategorizací (u děl multitematických či vysloveně mezioborových) budou v budoucnu alespoň částečně vyváženy možností pracovat s vědními oblastmi odděleně (např. geografie, meteorologie, stavebnictví).

V ÚČNK je pro zajištění vyváženosti korpusu SYN2000 (stomilionový reprezentativní korpus synchronní psané češtiny) používána relativně velmi jemná tematická škála. Vznikala na podkladě materiálu, který se zabýval různými charakteristikami a jejich kombinovatelností (F. Čermák, interní materiál ÚČNK), dále Deweyova desetinného třídění pro knihovny, poučila se na zahraničních korpusových projektech a vzala v úvahu také praktické zkušenosti těch pracovníků ÚČNK, kteří se zmiňovanou škálou pracují při značkování textů. V současnosti je seznam velkých oblastí a jejich dalšího vnitřního dělení už relativně ustálený.

Abych tematické kategorie ČNK představil v přehledné podobě, rozhodl jsem se uveřejnit je v tabulce, která bude umožňovat srovnání s Deweyovým desetinným tříděním pro knihovny a s tematickými ob[56]lastmi, ve kterých Oxford University Press (Oxford UP) využívá pro svůj lexikografický program excerpce externích odborníků. Tyto konfrontační soubory témat můžeme považovat jednak za soubory obecným užíváním vyzkoušené (zejména v případě Deweyova třídění), jednak za zkušenými lexikografy zvolené a stále prověřované kategorie (zejména v případě Oxford UP), které navíc zajímavě poukazují na historicky podmíněné oblasti čtenářského zájmu (srov. nepoměr mezi množstvím jemných kategorií např. v oblastech filosofie, medicína, domácí hospodářství, sport či minority).

Zkratky používané při vnější lingvistické anotaci (viz sloupec 1) jsou založeny na mezinárodních názvech oblastí, oborů.

 

Značka v ČNK

ČNK

Dewey

Oxford UP

typ textu:

 

 

 

ver

báseň

 

 

son

píseň

 

písňové texty

scr

dramatický text,

792 divadlo

drama, divadelní

 

scénář

 

písňový text

nov

román či jiný celek

 

fikce, historický

 

 

 

román

col

soubor povídek,

080 sborníky

 

 

jednotlivá povídka

 

 

fac

lit. faktu

 

 

pub

publicistika (noviny

 

 

 

a neodborné časopisy

 

 

adm

administrativa

350 veřejná správa,

zaměstnání

 

 

351 ústřední vláda,

 

 

 

352 místní správa,

 

 

 

651 řízení

 

 

 

administrativy, 652

 

 

 

psaní, 653 těsnopis

 

sci

vědeckonaučná lit.

 

 

pop

populárněnaučná lit.

 

 

txb

učebnice

 

 

enc

abecedně,

030 všeobecné

 

 

systematicky a jinak

encyklopedie

 

 

uspořádaná díla

 

 

mis

rozmanité

000 všeobecná díla

 

žánr:

 

 

 

IMAGINATIVNÍ

 

 

 

crm

detektivní, špionážní

 

zločin

 

romány

 

 

scf

vědecko-fantastická

 

sci-fi, fantasy

 

lit., fantasy

 

 

jun

lit. pro děti a mládež,

 

beletrie pro děti,

 

báje, pověsti,

 

mytologie

 

legendy bajky,

 

 

 

pohádky

 

 

FAC

lit. faktu

 

 

tra

cestopisy

 

 

mem

(auto)biografie,

920 životopisy

autobiografie,

 

vzpomínky, deníky

(kromě 929

biografie

 

 

genealogie a

 

 

 

heraldika)

 

chr

kroniky, letopisy,

 

deníky

 

ročenky, deníky

 

 

let

dopisy

 

 

INFORMATIVNÍ

 

 

 

[57]ARS

UMĚNÍ

700 umění,

umění, kritická

 

 

709 dějiny umění

teorie

mus

hudba

780 hudba

hudba (blues,

 

 

 

etnická hudba,

 

 

 

hudební nástroje,

 

 

 

jazz, nahrávání,

 

 

 

opera, písňové

 

 

 

texty, populární

 

 

 

hudba, primitivní

 

 

 

hudba, rock, vážná

 

 

 

hudba), /umění/

 

 

 

múzická umění

cin

film

 

film

tvf

televize

 

 

arc

architektura

710 tvorba krajiny,

architektura

 

 

urbanistika,

 

 

 

720 architektura

 

art

výtvarné umění

708 galerie, muzea,

/umění/ malířství,

 

užité umění

sbírky, 730

fotografie,

 

 

sochařství, 740

klenotnictví,

 

 

kreslení a dekorativní

starožitnosti,

 

 

umění, 750 malířství,

kaligrafie,

 

 

760 tiskové techniky,

keramika, design,

 

 

770 fotografie, 913

tisk (litografie)

 

 

starožitnosti

 

the

divadlo, balet

 

tanec (balet),

 

 

 

/umění/ múzická

 

 

 

umění

lit

literární věda

800 literatura, 810

literatura, literární

 

 

americká literatura,

kritika, literární

 

 

820 anglická

teorie

 

 

literatura, 830

 

 

 

německá literatura,

 

 

 

840 francouzská

 

 

 

literatura, 850 italská

 

 

 

literatura, 860

 

 

 

španělská literatura,

 

 

 

870 latinská

 

 

 

literatura, 880 řecká

 

 

 

literatura, 890 ostatní

 

 

 

literatury

 

HUM

SOCIÁLNÍ VĚDY

 

 

his

dějiny, archeologie,

509 dějiny a dílčí

dějiny, sociální

 

odborné biografie

pojednání (o čisté

dějiny, genealogie,

 

 

vědě), 571

heraldika, dějiny

 

 

prehistorická

starověku,

 

 

archeologie, 900

archeologie, mince

 

 

dějiny, 930 dějiny

 

 

 

starověku, 929

 

 

 

genealogie

 

 

 

a heraldika

 

psy

psychologie

130 psychologické

psychoanalýza

 

 

obory, 150 obecná

 

 

 

psychologie

 

edu

pedagogika a osvěta

370 výchova, 507

výchova a vzdělání,

 

 

studium a výuka

muzea, děti,

 

 

(čisté vědy), 707

rodičovství

 

 

studium a výuka

 

 

 

(umění)

 

soc

sociologie,

070 novinářství, 300

sociologie,

 

komunikace, soc.

společenské

zpravodajství

 

otázky, žurnalistika,

(sociální) vědy, 360

 

 

média

sociální péče, 366

 

 

 

sdružení, 367

 

 

 

společenské kluby,

 

 

 

368 pojištění

 

phi

filosofie, etika

100 filosofie, 110

filosofie

 

 

metafyzika, 120

(fenomenologie)

 

 

metafyzické teorie,

 

 

 

140 filosofická

 

 

 

témata, 170 etika,

 

 

 

180 starověká a

 

 

 

středověká filosofie,

 

 

 

190 moderní

 

 

 

filosofie, 501

 

 

 

filosofie a teorie

 

 

 

(čisté vědy), 577

 

 

 

filosofie biologie,

 

[58]

 

601 filosofie a teorie

 

 

 

(techniky), 701

 

 

 

filosofická hlediska

 

 

 

(umění)

 

inf

informace

370 výchova

výchova a vzdělání,

 

a knihovnictví

 

muzea

pol

politologie

320 politologie, 353

politika, vláda

 

 

vláda Spojených

 

 

 

států

 

lin

lingvistika

400 jazyk,

lingvistika (dialekt,

 

 

410 srovnávací

gramatika,

 

 

jazykověda,

fonetika),

 

 

420 angličtina,

hebrejština,

 

 

430 němčina,

angličtina ve světě,

 

 

440 francouzština,

indická angličtina,

 

 

450 italština,

jazyk, lexikografie,

 

 

460 španělština, 470

angličtina

 

 

latina, 480 klasická

černochů, klasická

 

 

řečtina, 490 ostatní

filologie

 

 

jazyky, 508 sbírky,

 

 

 

dialektologie

 

eth

etnografie

390 národopis

původní Američané

 

 

a folklor

 

LAW

PRÁVO

 

 

 

A BEZPEČNOST

 

 

jur

právo, kriminalistika

340 právo

právo (zločin

 

 

 

(mafie),

 

 

 

kriminalistika,

 

 

 

policie, vězení),

 

 

 

dědictví

mil

vojenství

355 válečnictví,

branná moc

 

 

356 pěší vojska,

(vojenské letectvo,

 

 

357 jezdectvo,

pozemní vojsko,

 

 

358 ostatní vojska

válečné

 

 

a služby,

námořnictvo),

 

 

359 námořní síly

zbraně

sec

bezpečnost

 

špionáž

NAT

PŘÍRODNÍ VĚDY

500 čistá věda

věda

arg

zemědělství,

630 zemědělství,

zemědělství,

 

lesnictví, chov,

637 mlékárenský

farmaření, rybářský

 

pěstování

průmysl, 664

průmysl, lesní

 

 

potravinářská

hospodářství,

 

 

technologie

včelařství, koně

med

medicína

610 lékařské vědy,

medicína

 

 

613 hygiena,

(anatomie,

 

 

615 terapie

bakteriologie,

 

 

a farmakologie

farmakologie,

 

 

 

fyziologie,

 

 

 

homeopatie,

 

 

 

chirurgie,

 

 

 

imunologie,

 

 

 

neurologie,

 

 

 

oftalmologie,

 

 

 

psychiatrie,

 

 

 

psychologie,

 

 

 

veterinární

 

 

 

medicína, zubní

 

 

 

lékařství), zdraví

 

 

 

(alternativní

 

 

 

medicína

 

 

 

(akupunktura,

 

 

 

aromaterapie))

zoo

zoologie

562 paleozoologie

zoologie

 

 

bezobratlých, 563

(entomologie,

 

 

jednoduché formy,

ornitologie), vývoj

 

 

564 měkkýši,

zvířecích druhů

 

 

565 ostatní fosilní

 

 

 

bezobratlí,

 

 

 

566 paleozoologie

 

 

 

obratlovců,

 

 

 

567 anamnia,

 

 

 

568 sauropsida, 569

 

 

 

savci, 590 zoologické

 

 

 

vědy

 

bot

botanika

561 paleobotanika,

botanika

 

 

580 botanické vědy

 

bio

biologie

574 biologie, 575

genetika, biologie

 

 

organický vývoj, 576

(cytologie,

 

 

mikrobiologie, 578

histologie,

 

 

mikroskopy

mikrobiologie),

 

 

a mikroskopie,

paleontologie,

 

 

579 sbírky

biochemie

 

 

a konzervování

a biotechnologie

ant

antropologie

572 antropologie,

antropologie

 

 

573 fyzická

 

 

 

antropologie

 

[59]che

chemie

540 chemie,

biochemie, chemie

 

 

660 chemická

 

 

 

technologie

 

mat

matematika

310 statistika,

matematika

 

 

510 matematika

(statistika)

log

logika

160 logika

 

ggr

geografie

910 zeměpis, cesty

fyzikální zeměpis,

 

 

 

geografie

 

 

 

(kartografie),

 

 

 

topografie

ast

astronomie

520 astronomie

astronomie

 

 

a příbuzné vědy

 

phy

fyzika

530 fyzika

fyzika (fyzika

 

 

 

částic, nukleární

 

 

 

fyzika), optika

 

 

 

(mikroskopie),

 

 

 

akustika,

 

 

 

mechanika

met

meteorologie

 

meteorologie

geo

geologie, hydrologie

550 vědy o Zemi,

petrografie,

 

 

552 petrologie

oceanografie,

 

 

 

mineralogie,

 

 

 

geologie,

 

 

 

speleologie

env

ekologie,

710 tvorba krajiny,

ekologie, ochrana

 

životní prostředí

urbanistika

přírody, životní

 

 

 

prostředí

TEC

TECHNIKA

600 technika (kromě

astronautika

 

 

601 filosofie

 

 

 

a teorie),

 

 

 

620 inženýrství

 

tra

doprava, spoje

383 pošty, 384

telekomunikace,

 

 

telekomunikace, 385

vysílání (rozhlas,

 

 

železniční doprava,

televize), letectví

 

 

386 vnitrozemská

(vojenské letectvo),

 

 

vodní doprava, 387

námořnictvo

 

 

námořní a letecká

(válečné

 

 

doprava, 388 dálniční

námořnictvo),

 

 

a městská doprava

doprava

 

 

 

(železnice),

 

 

 

automobilismus

 

 

 

(motorkářství),

 

 

 

lodě, komunikace =

 

 

 

doprava a spoje,

 

 

 

kosmonautika

ene

energetika

energie (ropný

 

 

 

průmysl)

 

ind

průmysl, technika

654–655 polygrafie

technologie,

 

 

a vydavatelství, 658

biotechnologie,

 

 

řízení průmyslu, 670

metalurgie,

 

 

výroba, 678 gumové

elektronika, audio

 

 

a plastové materiály,

(nahrávání), látky

 

 

680 ostatní výroby

(barvení látek), tisk

 

 

 

(litografie),

 

 

 

řemesla,

 

 

 

nakladatelská

 

 

 

práce, průmysl,

 

 

 

zpracovatelský

 

 

 

průmysl, důlní

 

 

 

průmysl, balení a

 

 

 

obaly, strojírenství,

 

 

 

těžba dřeva, dřevo,

 

 

 

tesařské řemeslo,

 

 

 

instalatérské práce

bui

stavebnictví

690 pozemní

budova

 

 

stavitelství

 

com

informatika

 

věda o počítačích

 

a počítače

 

(umělá inteligence,

 

 

 

elektronické vědy)

sta

normalizace

389 metrologie

taxonomie, měření

 

a metrologie

a normalizace

času

ECN

EKONOMIE

 

 

 

A ŘÍZENÍ

 

 

eco

ekonomie, obchod,

330 ekonomika, 334

finance

 

bankovnictví

družstevnictví, 337

(bankovnictví),

 

 

celní politika, 381

obchod

 

 

vnitřní obchod, 382

(maloobchodní

 

 

mezinárodní obchod,

podnikání),

 

 

656–657 účetnictví,

zaměstnání,

 

 

659 ostatní problémy

vlastnictví,

 

 

obchodu

marketing,

 

 

 

účetnictví, obchod,

 

 

 

mince,

 

 

 

hospodářství

[60]man

management, řízení

 

reklama

 

 

 

(maloobchodní

 

 

 

podnikání)

mer

zbožíznalství

 

spotřebitel

 

a spotřebitel

 

 

BEL

VÍRA

 

 

rel

náboženství

200 náboženství, 210

náboženství

 

 

přírodní teologie, 220

(budhismus,

 

 

bible, 230

křesťanství

 

 

dogmatická teologie,

(anglikánství,

 

 

240 devocionální

římskokatolická

 

 

a praktická teologie,

církev),

 

 

250 pastorální

hinduismus, islám,

 

 

teologie, 260

judaismus,

 

 

křesťanská církev,

pravoslavná

 

 

270 dějiny

církev), new age

 

 

křesťanské církve,

 

 

 

280 křesťanské

 

 

 

církve a sekty, 290

 

 

 

ostatní náboženství

 

sup

nadpřirozeno, okultní

 

nadpřirozeno,

 

vědy, magie

 

okultní vědy,

 

 

 

magie, astrologie

LIF

ŽIVOTNÍ STYL

 

obecné zájmy

 

 

 

(mužské), ženy

hou

domácí hospodářství,

640 domácí

jídlo (řeznictví),

 

stravování, odívání,

hospodářství

domov (zařízení

 

byt, ruční práce

 

domu, osvětlení),

 

 

 

/řemesla/ = pletení,

 

 

 

šití, háčkování,

 

 

 

barevné sklo,

 

 

 

výroba prošívaných

 

 

 

dek, krejčovství,

 

 

 

tetování, textil,

 

 

 

víno, móda,

 

 

 

kadeřnictví,

 

 

 

domácnost,

 

 

 

kuchařství, dámské

 

 

 

krejčovství

spo

sport

796 atletika a hry ve

sport (americký

 

 

volné přírodě nebo

fotbal, atletika,

 

 

na hřišti, 797 vodní

automobilové

 

 

sporty, 798 jezdecké

závody, badminton,

 

 

sporty, 799 sportovní

baseball, basketbal,

 

 

rybářství,

body-building,

 

 

myslivectví, střelba

bojová umění,

 

 

 

bowling, box,

 

 

 

bruslení, býčí

 

 

 

zápasy, curling,

 

 

 

cyklistika, fotbal,

 

 

 

golf, gymnastika,

 

 

 

holubářství,

 

 

 

jachting, jezdectví,

 

 

 

kanoistika, karate,

 

 

 

kriket, kulečník,

 

 

 

lacrosse, lyžování,

 

 

 

parašutismus,

 

 

 

plachetnice,

 

 

 

plavání, pozemní

 

 

 

hokej, rodeo,

 

 

 

rugby, rybaření,

 

 

 

skateboarding,

 

 

 

skoky do vody,

 

 

 

snowbording,

 

 

 

sportovní potápění,

 

 

 

střelba, sumo,

 

 

 

surfing, šerm,

 

 

 

šipky, tenis,

 

 

 

veslování, vodní

 

 

 

sporty, volejbal,

 

 

 

vzpírání,

 

 

 

windsurfing,

 

 

 

wrestling, závěsné

 

 

 

létání, zimní

 

 

 

hokej), jóga,

 

 

 

sokolnictví,

 

 

 

horolezectví,

 

 

 

lukostřelba

sct

společenský život

060 všeobecné

svatby

 

 

společnosti

 

amu

zábava, hry, volný

791 veřejná zábava,

závody (sázení),

 

čas, cestování

793 hry a zábavy v

hry (karetní hry),

 

 

místnosti, 794 hry

domácí mazlíčci

 

 

šikovnosti a

(psi, kočky),

 

 

dovednosti, 795 hry

skauting, známky,

 

 

nahodilé

studentské zájmy,

 

 

 

zájmy teenagerů,

[61]

 

 

cestování,

 

 

 

zahradničení,

 

 

 

hobby (musí mít

 

 

 

vždy další

 

 

 

specifikaci), volný

 

 

 

čas, knihy, bridž,

 

 

 

karavaning, šachy,

 

 

 

komiksy, kutilství,

 

 

 

zábava, sex

min

skupiny se

 

mládí, důchod,

 

specifickými zájmy –

 

feminismus,

 

důchodci, etnické

 

gayové a lesbičky,

 

zájmy, postižení,

 

invalidita, drogy,

 

homosexuálové,

 

etnické zájmy,

 

drogy

 

Hispanoameričané,

 

 

 

Afroameričané,

 

 

 

Asioameričané

reg

region

354 ostatní země,

venkov, regionální

 

 

940 Evropa, 950

zájmy (Amisch,

 

 

Asie, 960 Afrika, 970

Haiti), Rusko,

 

 

Severní Amerika,

rozvojové země,

 

 

980 Jižní Amerika,

Antily, Evropa,

 

 

990 ostrovy

Indie, Japonsko,

 

 

v Pacifiku

Židovství, Střední

 

 

 

východ,

 

 

 

Newfoundland,

 

 

 

Afrika, Aljaška,

 

 

 

Asie, Austrálie,

 

 

 

Kanada, Čína

 

Na závěr je třeba říci, že téma/námět textu (topic) patří dodnes k poněkud kontroverzním bodům korpusových projektů. Přes veškerou snahu je totiž obtížné zaručit, že všechny texty (dnes i v budoucnu) budou snadno zařaditelné k některé z dříve vzniklých kategorií. Je také poněkud nesnadné definovat (pro neodborníky, jakými lingvisté v ostatních oborech jsou) jejich hranice a poskytnout tak lidem, kteří pro účely zařazení do korpusu texty kategorizují, explicitní vodítko a kritérium jiné, nežli je jejich osobní náhled na věc.

Přes tyto nevýhody však upřednostňuje většina projektů a také ČNK alespoň základní pomocnou síť kategorií, protože – vzato do důsledků – seznam určitelných kategorií může být téměř nekonečný a předmětem zkoumání se za určitých okolností může stát i velmi malá a přesně vymezená podoblast. Rezignovat kvůli podobným obtížím na jakékoli – byť pro někoho příliš obecné, pro jiného třeba nepřesné – dělení, by bylo rozhodně škoda.

 

LITERATURA

 

ASTON, G. – BURNARD, L.: The BNC Handbook. Edinburgh University Press, Cambridge 1998.

ČERMÁK, F.: Czech National Corpus: A case in many contexts. International Journal of Copus Linguistics, 2, 1997, s. 181–197.

ČERMÁK, F. – KRÁLÍK, J. – KUČERA, K.: Recepce současné češtiny a reprezentativnost korpusu. SaS, 58, 1997, s. 117–124.

KENNEDY, G.: An Introduction to Corpus Linguistics. Addison Wesley Longman Limited, Harlow 1998.

KRÁLÍK, J.: Vyvážení zdrojů Synchronního korpusu češtiny SYN2000. SaS, 62, 2001, s. 38–53.

ŠULC, M.: Korpusová lingvistika. První vstup. Karolinum, Praha 1999.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, Praha 1

Slovo a slovesnost, volume 62 (2001), number 1, pp. 53-61

Previous Jan Králík: Vyvážení zdrojů Synchronního korpusu češtiny SYN2000

Next Dana Hlaváčková: Korpus mluvené češtiny z brněnského prostředí a jeho morfologické značkování