Michal Šulc
[Discussion]
Thematic representativeness of corpora
Reprezentativnost korpusů je idea obecně velmi obtížně podchytitelná a s určitými přestávkami již po dlouhou dobu diskutovaná (srov. zde stať J. Králíka, s. 38–53).
První otázkou, kterou by bylo možno si položit, je otázka, do jaké míry korpus odpovídá (nebo v budoucnu bude odpovídat) jazyku – jeho produkci i recepci – z hlediska média přenosu, tedy poměru mezi jazykem mluveným a slyšeným versus psaným a čteným. Současné zkušenosti s vytvářením mluvených korpusů, s jejich zpracováním a především s jejich velkou časovou a finanční náročností ukazují, že texty mluvené a psané budou vzhledem k poměru, ve kterém se vyskytují v běžném životě (odhady hovoří o 90–95 % mluveného jazyka a pouhých 10, ale možná spíš jen 5 % jazyka psaného), pravděpodobně vždy nevyvážené a že korpusy, ve kterých by tento poměr odpovídal realitě života, budou alespoň v dohledné době několika desítek let příliš malé na to, aby poskytly dostatek materiálu pro základní výzkum na všech jazykových rovinách. Jistě budou pomocníkem pro rozlišení frekvence užití v oblasti mluveného a psaného jazyka, jistě budou velmi cenným zdrojem pro specializovaná studia mluveného jazyka, např. morfologická či syntaktická, která jsou velmi potřebná, pro lexikografická studia však podobné korpusy nebudou ještě velmi dlouhou dobu dostatečně veliké.
Je tedy třeba počítat s tím, že nejméně několik následujících desetiletí budou všechny větší korpusy odrážet především jazyk psaný. (Nejde o nic nového, i náš starší typ materiálové základny pro lexikografii – lístkový katalog – zpracovával téměř výhrad[54]ně češtinu psaných textů, tento fakt je jen třeba při různých studiích brát v úvahu.) Také projekt Český národní korpus (ČNK) obsahuje převážně texty (původem) psané.
Zcela samozřejmě se otázka reprezentativnosti hned ve svém dalším kroku rozpadá na problém objemu a obsahu. Jak velký musí být korpus, aby ho bylo možno vzhledem k cílovému užití nazvat užitečně reprezentativním? Jak zajistit, aby ve velkých všeobecných korpusech byla obsažena co nejširší tematická škála?
Velikost korpusů vycházela v jejich úplných začátcích spíše z lidských, technických a finančních možností prvních korpusových lingvistů a pohybovala se od několika set tisíc k přibližně dvěma milionům slovních výskytů. Byla na nich sice podniknuta zajímavá zkoumání morfologická i jiná, velmi brzy se však ukázalo, že pro základní výzkum, který by se neomezoval na nižší jazykové roviny, je třeba velikosti nepoměrně větší. V dnešní době je za (pravděpodobně dočasný) standard považována velikost 100 milionů slovních výskytů, kterou má snad nejcitovanější korpus 90. let, British National Corpus. Tuto velikost nabízí i první varianta reprezentativního korpusu současné psané češtiny SYN2000, zpřístupněná veřejnosti v roce 2000.
Na obsahové měřítko, tedy na zachycení široké škály témat, jedni při budování korpusů rezignují (např. Bank of English, Frantext), zatímco druzí se snažili a snaží o jistou proporcionalitu a reprezentativnost.
Pracovníci jednomilionového Survey of English Usage (SEU), nejvýznamnějšího předchůdce dnešních elektronických korpusů, dělili psaný text do následujících kategorií:
text tištěný | ||
| 1 informativní | |
| 1.1 denní tisk, 1.2 vědecké texty, 1.3 administrativa, 1.4 právo | |
| 2 výukový | |
| 3 agitační | |
| 4 imaginativní | |
text netištěný | ||
| 1 korespondence | |
| 1.1 soukromá, 1.2 nesoukromá | |
| 2 deníky | |
| 3 souvislý text | |
| 3.1 imaginativní, 3.2 informativní | |
text psaný, určený k přednesu | ||
| 1 různé mluvené projevy | |
| 2 hry | |
| 3 zprávy | |
| 4 slavnostní projevy | |
| 5 příběhy | |
Autoři prvního elektronického korpusu, dodnes vlivného jednomilionového Brown University Standard Corpus of Present-Day Edited American English (Brown Corpus), kategorizovali své texty následovně:
informativní | |
1 denní tisk – reportáže | |
| 1.1 politické, 1.2 sportovní, 1.3 společenské, 1.4 krátké zprávy, 1.5 ekonomické, 1.6 kulturní |
[55]2 denní tisk – úvodníky | |
| 2.1 institucionální, 2.2 osobní |
3 denní tisk – recenze (knihy, divadlo, tanec, hudba) | |
4 náboženství | |
5 řemesla a koníčky | |
6 lidové tradice | |
7 krásná literatura, životopisy, paměti | |
8 odborné texty | |
| 8.1 přírodní vědy, 8.2 medicína, 8.3 matematika, 8.4 sociologie a psychologie, 8.5 politika, právo a výchova, 8.6 společenské vědy, 8.7 technika a strojírenství |
9 různé | |
| 9.1 vláda, 9.2 nadace, 9.3 zprávy průmyslových podniků, 9.4 univerzitní materiály, 9.5 zprávy podnikových orgánů |
| |
imaginativní | |
10 romány a povídky | |
11 detektivní romány a příběhy s tajemstvím | |
12 sci-fi | |
13 dobrodružné romány a westerny | |
14 milostné romány a romance | |
15 humor |
Jeden z nejcitovanějších korpusů poslední doby a v letech 1991 až 1995 nejprestižnější projekt anglické lingvistiky, British National Corpus, pracuje s velkými a tematicky širokými oblastmi. Základní dělení na literaturu imaginativní a informativní sice nemohl ponechat jako nejjemnější možnou distinkci, o mnoho více však ze svého projektu nezveřejnil. Literaturu informativní dělí na osm specifičtějších „domén“ (domain): 1. umění – 2. víra a myšlení – 3. obchod a finance – 4. volný čas – 5. čistá věda a přírodní vědy – 6. aplikované vědy – 7. sociální vědy a ekonomie – 8. dění ve světě.
Jinou možností je vytvořit jemné síto mnoha vědních oborů. Tato varianta pohledu na tematické oblasti byla zvolena v Ústavu Českého národního korpusu (ÚČNK), byť si jeho pracovníci byli vědomi obtíží a problémů z takového eventuálně zvoleného přístupu vyplývajících. I dnes se však zdá, že pracovat jen s pěti nebo deseti kategoriemi by znamenalo zůstat v půli cesty, a dnešní obtíže s kategorizací (u děl multitematických či vysloveně mezioborových) budou v budoucnu alespoň částečně vyváženy možností pracovat s vědními oblastmi odděleně (např. geografie, meteorologie, stavebnictví).
V ÚČNK je pro zajištění vyváženosti korpusu SYN2000 (stomilionový reprezentativní korpus synchronní psané češtiny) používána relativně velmi jemná tematická škála. Vznikala na podkladě materiálu, který se zabýval různými charakteristikami a jejich kombinovatelností (F. Čermák, interní materiál ÚČNK), dále Deweyova desetinného třídění pro knihovny, poučila se na zahraničních korpusových projektech a vzala v úvahu také praktické zkušenosti těch pracovníků ÚČNK, kteří se zmiňovanou škálou pracují při značkování textů. V současnosti je seznam velkých oblastí a jejich dalšího vnitřního dělení už relativně ustálený.
Abych tematické kategorie ČNK představil v přehledné podobě, rozhodl jsem se uveřejnit je v tabulce, která bude umožňovat srovnání s Deweyovým desetinným tříděním pro knihovny a s tematickými ob[56]lastmi, ve kterých Oxford University Press (Oxford UP) využívá pro svůj lexikografický program excerpce externích odborníků. Tyto konfrontační soubory témat můžeme považovat jednak za soubory obecným užíváním vyzkoušené (zejména v případě Deweyova třídění), jednak za zkušenými lexikografy zvolené a stále prověřované kategorie (zejména v případě Oxford UP), které navíc zajímavě poukazují na historicky podmíněné oblasti čtenářského zájmu (srov. nepoměr mezi množstvím jemných kategorií např. v oblastech filosofie, medicína, domácí hospodářství, sport či minority).
Zkratky používané při vnější lingvistické anotaci (viz sloupec 1) jsou založeny na mezinárodních názvech oblastí, oborů.
Značka v ČNK | ČNK | Dewey | Oxford UP |
typ textu: |
|
|
|
ver | báseň |
|
|
son | píseň |
| písňové texty |
scr | dramatický text, | 792 divadlo | drama, divadelní |
| scénář |
| písňový text |
nov | román či jiný celek |
| fikce, historický |
|
|
| román |
col | soubor povídek, | 080 sborníky |
|
| jednotlivá povídka |
|
|
fac | lit. faktu |
|
|
pub | publicistika (noviny |
|
|
| a neodborné časopisy |
|
|
adm | administrativa | 350 veřejná správa, | zaměstnání |
|
| 351 ústřední vláda, |
|
|
| 352 místní správa, |
|
|
| 651 řízení |
|
|
| administrativy, 652 |
|
|
| psaní, 653 těsnopis |
|
sci | vědeckonaučná lit. |
|
|
pop | populárněnaučná lit. |
|
|
txb | učebnice |
|
|
enc | abecedně, | 030 všeobecné |
|
| systematicky a jinak | encyklopedie |
|
| uspořádaná díla |
|
|
mis | rozmanité | 000 všeobecná díla |
|
žánr: |
|
|
|
IMAGINATIVNÍ |
|
|
|
crm | detektivní, špionážní |
| zločin |
| romány |
|
|
scf | vědecko-fantastická |
| sci-fi, fantasy |
| lit., fantasy |
|
|
jun | lit. pro děti a mládež, |
| beletrie pro děti, |
| báje, pověsti, |
| mytologie |
| legendy bajky, |
|
|
| pohádky |
|
|
FAC | lit. faktu |
|
|
tra | cestopisy |
|
|
mem | (auto)biografie, | 920 životopisy | autobiografie, |
| vzpomínky, deníky | (kromě 929 | biografie |
|
| genealogie a |
|
|
| heraldika) |
|
chr | kroniky, letopisy, |
| deníky |
| ročenky, deníky |
|
|
let | dopisy |
|
|
INFORMATIVNÍ |
|
|
|
[57]ARS | UMĚNÍ | 700 umění, | umění, kritická |
|
| 709 dějiny umění | teorie |
mus | hudba | 780 hudba | hudba (blues, |
|
|
| etnická hudba, |
|
|
| hudební nástroje, |
|
|
| jazz, nahrávání, |
|
|
| opera, písňové |
|
|
| texty, populární |
|
|
| hudba, primitivní |
|
|
| hudba, rock, vážná |
|
|
| hudba), /umění/ |
|
|
| múzická umění |
cin | film |
| film |
tvf | televize |
|
|
arc | architektura | 710 tvorba krajiny, | architektura |
|
| urbanistika, |
|
|
| 720 architektura |
|
art | výtvarné umění | 708 galerie, muzea, | /umění/ malířství, |
| užité umění | sbírky, 730 | fotografie, |
|
| sochařství, 740 | klenotnictví, |
|
| kreslení a dekorativní | starožitnosti, |
|
| umění, 750 malířství, | kaligrafie, |
|
| 760 tiskové techniky, | keramika, design, |
|
| 770 fotografie, 913 | tisk (litografie) |
|
| starožitnosti |
|
the | divadlo, balet |
| tanec (balet), |
|
|
| /umění/ múzická |
|
|
| umění |
lit | literární věda | 800 literatura, 810 | literatura, literární |
|
| americká literatura, | kritika, literární |
|
| 820 anglická | teorie |
|
| literatura, 830 |
|
|
| německá literatura, |
|
|
| 840 francouzská |
|
|
| literatura, 850 italská |
|
|
| literatura, 860 |
|
|
| španělská literatura, |
|
|
| 870 latinská |
|
|
| literatura, 880 řecká |
|
|
| literatura, 890 ostatní |
|
|
| literatury |
|
HUM | SOCIÁLNÍ VĚDY |
|
|
his | dějiny, archeologie, | 509 dějiny a dílčí | dějiny, sociální |
| odborné biografie | pojednání (o čisté | dějiny, genealogie, |
|
| vědě), 571 | heraldika, dějiny |
|
| prehistorická | starověku, |
|
| archeologie, 900 | archeologie, mince |
|
| dějiny, 930 dějiny |
|
|
| starověku, 929 |
|
|
| genealogie |
|
|
| a heraldika |
|
psy | psychologie | 130 psychologické | psychoanalýza |
|
| obory, 150 obecná |
|
|
| psychologie |
|
edu | pedagogika a osvěta | 370 výchova, 507 | výchova a vzdělání, |
|
| studium a výuka | muzea, děti, |
|
| (čisté vědy), 707 | rodičovství |
|
| studium a výuka |
|
|
| (umění) |
|
soc | sociologie, | 070 novinářství, 300 | sociologie, |
| komunikace, soc. | společenské | zpravodajství |
| otázky, žurnalistika, | (sociální) vědy, 360 |
|
| média | sociální péče, 366 |
|
|
| sdružení, 367 |
|
|
| společenské kluby, |
|
|
| 368 pojištění |
|
phi | filosofie, etika | 100 filosofie, 110 | filosofie |
|
| metafyzika, 120 | (fenomenologie) |
|
| metafyzické teorie, |
|
|
| 140 filosofická |
|
|
| témata, 170 etika, |
|
|
| 180 starověká a |
|
|
| středověká filosofie, |
|
|
| 190 moderní |
|
|
| filosofie, 501 |
|
|
| filosofie a teorie |
|
|
| (čisté vědy), 577 |
|
|
| filosofie biologie, |
|
[58] |
| 601 filosofie a teorie |
|
|
| (techniky), 701 |
|
|
| filosofická hlediska |
|
|
| (umění) |
|
inf | informace | 370 výchova | výchova a vzdělání, |
| a knihovnictví |
| muzea |
pol | politologie | 320 politologie, 353 | politika, vláda |
|
| vláda Spojených |
|
|
| států |
|
lin | lingvistika | 400 jazyk, | lingvistika (dialekt, |
|
| 410 srovnávací | gramatika, |
|
| jazykověda, | fonetika), |
|
| 420 angličtina, | hebrejština, |
|
| 430 němčina, | angličtina ve světě, |
|
| 440 francouzština, | indická angličtina, |
|
| 450 italština, | jazyk, lexikografie, |
|
| 460 španělština, 470 | angličtina |
|
| latina, 480 klasická | černochů, klasická |
|
| řečtina, 490 ostatní | filologie |
|
| jazyky, 508 sbírky, |
|
|
| dialektologie |
|
eth | etnografie | 390 národopis | původní Američané |
|
| a folklor |
|
LAW | PRÁVO |
|
|
| A BEZPEČNOST |
|
|
jur | právo, kriminalistika | 340 právo | právo (zločin |
|
|
| (mafie), |
|
|
| kriminalistika, |
|
|
| policie, vězení), |
|
|
| dědictví |
mil | vojenství | 355 válečnictví, | branná moc |
|
| 356 pěší vojska, | (vojenské letectvo, |
|
| 357 jezdectvo, | pozemní vojsko, |
|
| 358 ostatní vojska | válečné |
|
| a služby, | námořnictvo), |
|
| 359 námořní síly | zbraně |
sec | bezpečnost |
| špionáž |
NAT | PŘÍRODNÍ VĚDY | 500 čistá věda | věda |
arg | zemědělství, | 630 zemědělství, | zemědělství, |
| lesnictví, chov, | 637 mlékárenský | farmaření, rybářský |
| pěstování | průmysl, 664 | průmysl, lesní |
|
| potravinářská | hospodářství, |
|
| technologie | včelařství, koně |
med | medicína | 610 lékařské vědy, | medicína |
|
| 613 hygiena, | (anatomie, |
|
| 615 terapie | bakteriologie, |
|
| a farmakologie | farmakologie, |
|
|
| fyziologie, |
|
|
| homeopatie, |
|
|
| chirurgie, |
|
|
| imunologie, |
|
|
| neurologie, |
|
|
| oftalmologie, |
|
|
| psychiatrie, |
|
|
| psychologie, |
|
|
| veterinární |
|
|
| medicína, zubní |
|
|
| lékařství), zdraví |
|
|
| (alternativní |
|
|
| medicína |
|
|
| (akupunktura, |
|
|
| aromaterapie)) |
zoo | zoologie | 562 paleozoologie | zoologie |
|
| bezobratlých, 563 | (entomologie, |
|
| jednoduché formy, | ornitologie), vývoj |
|
| 564 měkkýši, | zvířecích druhů |
|
| 565 ostatní fosilní |
|
|
| bezobratlí, |
|
|
| 566 paleozoologie |
|
|
| obratlovců, |
|
|
| 567 anamnia, |
|
|
| 568 sauropsida, 569 |
|
|
| savci, 590 zoologické |
|
|
| vědy |
|
bot | botanika | 561 paleobotanika, | botanika |
|
| 580 botanické vědy |
|
bio | biologie | 574 biologie, 575 | genetika, biologie |
|
| organický vývoj, 576 | (cytologie, |
|
| mikrobiologie, 578 | histologie, |
|
| mikroskopy | mikrobiologie), |
|
| a mikroskopie, | paleontologie, |
|
| 579 sbírky | biochemie |
|
| a konzervování | a biotechnologie |
ant | antropologie | 572 antropologie, | antropologie |
|
| 573 fyzická |
|
|
| antropologie |
|
[59]che | chemie | 540 chemie, | biochemie, chemie |
|
| 660 chemická |
|
|
| technologie |
|
mat | matematika | 310 statistika, | matematika |
|
| 510 matematika | (statistika) |
log | logika | 160 logika |
|
ggr | geografie | 910 zeměpis, cesty | fyzikální zeměpis, |
|
|
| geografie |
|
|
| (kartografie), |
|
|
| topografie |
ast | astronomie | 520 astronomie | astronomie |
|
| a příbuzné vědy |
|
phy | fyzika | 530 fyzika | fyzika (fyzika |
|
|
| částic, nukleární |
|
|
| fyzika), optika |
|
|
| (mikroskopie), |
|
|
| akustika, |
|
|
| mechanika |
met | meteorologie |
| meteorologie |
geo | geologie, hydrologie | 550 vědy o Zemi, | petrografie, |
|
| 552 petrologie | oceanografie, |
|
|
| mineralogie, |
|
|
| geologie, |
|
|
| speleologie |
env | ekologie, | 710 tvorba krajiny, | ekologie, ochrana |
| životní prostředí | urbanistika | přírody, životní |
|
|
| prostředí |
TEC | TECHNIKA | 600 technika (kromě | astronautika |
|
| 601 filosofie |
|
|
| a teorie), |
|
|
| 620 inženýrství |
|
tra | doprava, spoje | 383 pošty, 384 | telekomunikace, |
|
| telekomunikace, 385 | vysílání (rozhlas, |
|
| železniční doprava, | televize), letectví |
|
| 386 vnitrozemská | (vojenské letectvo), |
|
| vodní doprava, 387 | námořnictvo |
|
| námořní a letecká | (válečné |
|
| doprava, 388 dálniční | námořnictvo), |
|
| a městská doprava | doprava |
|
|
| (železnice), |
|
|
| automobilismus |
|
|
| (motorkářství), |
|
|
| lodě, komunikace = |
|
|
| doprava a spoje, |
|
|
| kosmonautika |
ene | energetika | energie (ropný |
|
|
| průmysl) |
|
ind | průmysl, technika | 654–655 polygrafie | technologie, |
|
| a vydavatelství, 658 | biotechnologie, |
|
| řízení průmyslu, 670 | metalurgie, |
|
| výroba, 678 gumové | elektronika, audio |
|
| a plastové materiály, | (nahrávání), látky |
|
| 680 ostatní výroby | (barvení látek), tisk |
|
|
| (litografie), |
|
|
| řemesla, |
|
|
| nakladatelská |
|
|
| práce, průmysl, |
|
|
| zpracovatelský |
|
|
| průmysl, důlní |
|
|
| průmysl, balení a |
|
|
| obaly, strojírenství, |
|
|
| těžba dřeva, dřevo, |
|
|
| tesařské řemeslo, |
|
|
| instalatérské práce |
bui | stavebnictví | 690 pozemní | budova |
|
| stavitelství |
|
com | informatika |
| věda o počítačích |
| a počítače |
| (umělá inteligence, |
|
|
| elektronické vědy) |
sta | normalizace | 389 metrologie | taxonomie, měření |
| a metrologie | a normalizace | času |
ECN | EKONOMIE |
|
|
| A ŘÍZENÍ |
|
|
eco | ekonomie, obchod, | 330 ekonomika, 334 | finance |
| bankovnictví | družstevnictví, 337 | (bankovnictví), |
|
| celní politika, 381 | obchod |
|
| vnitřní obchod, 382 | (maloobchodní |
|
| mezinárodní obchod, | podnikání), |
|
| 656–657 účetnictví, | zaměstnání, |
|
| 659 ostatní problémy | vlastnictví, |
|
| obchodu | marketing, |
|
|
| účetnictví, obchod, |
|
|
| mince, |
|
|
| hospodářství |
[60]man | management, řízení |
| reklama |
|
|
| (maloobchodní |
|
|
| podnikání) |
mer | zbožíznalství |
| spotřebitel |
| a spotřebitel |
|
|
BEL | VÍRA |
|
|
rel | náboženství | 200 náboženství, 210 | náboženství |
|
| přírodní teologie, 220 | (budhismus, |
|
| bible, 230 | křesťanství |
|
| dogmatická teologie, | (anglikánství, |
|
| 240 devocionální | římskokatolická |
|
| a praktická teologie, | církev), |
|
| 250 pastorální | hinduismus, islám, |
|
| teologie, 260 | judaismus, |
|
| křesťanská církev, | pravoslavná |
|
| 270 dějiny | církev), new age |
|
| křesťanské církve, |
|
|
| 280 křesťanské |
|
|
| církve a sekty, 290 |
|
|
| ostatní náboženství |
|
sup | nadpřirozeno, okultní |
| nadpřirozeno, |
| vědy, magie |
| okultní vědy, |
|
|
| magie, astrologie |
LIF | ŽIVOTNÍ STYL |
| obecné zájmy |
|
|
| (mužské), ženy |
hou | domácí hospodářství, | 640 domácí | jídlo (řeznictví), |
| stravování, odívání, | hospodářství | domov (zařízení |
| byt, ruční práce |
| domu, osvětlení), |
|
|
| /řemesla/ = pletení, |
|
|
| šití, háčkování, |
|
|
| barevné sklo, |
|
|
| výroba prošívaných |
|
|
| dek, krejčovství, |
|
|
| tetování, textil, |
|
|
| víno, móda, |
|
|
| kadeřnictví, |
|
|
| domácnost, |
|
|
| kuchařství, dámské |
|
|
| krejčovství |
spo | sport | 796 atletika a hry ve | sport (americký |
|
| volné přírodě nebo | fotbal, atletika, |
|
| na hřišti, 797 vodní | automobilové |
|
| sporty, 798 jezdecké | závody, badminton, |
|
| sporty, 799 sportovní | baseball, basketbal, |
|
| rybářství, | body-building, |
|
| myslivectví, střelba | bojová umění, |
|
|
| bowling, box, |
|
|
| bruslení, býčí |
|
|
| zápasy, curling, |
|
|
| cyklistika, fotbal, |
|
|
| golf, gymnastika, |
|
|
| holubářství, |
|
|
| jachting, jezdectví, |
|
|
| kanoistika, karate, |
|
|
| kriket, kulečník, |
|
|
| lacrosse, lyžování, |
|
|
| parašutismus, |
|
|
| plachetnice, |
|
|
| plavání, pozemní |
|
|
| hokej, rodeo, |
|
|
| rugby, rybaření, |
|
|
| skateboarding, |
|
|
| skoky do vody, |
|
|
| snowbording, |
|
|
| sportovní potápění, |
|
|
| střelba, sumo, |
|
|
| surfing, šerm, |
|
|
| šipky, tenis, |
|
|
| veslování, vodní |
|
|
| sporty, volejbal, |
|
|
| vzpírání, |
|
|
| windsurfing, |
|
|
| wrestling, závěsné |
|
|
| létání, zimní |
|
|
| hokej), jóga, |
|
|
| sokolnictví, |
|
|
| horolezectví, |
|
|
| lukostřelba |
sct | společenský život | 060 všeobecné | svatby |
|
| společnosti |
|
amu | zábava, hry, volný | 791 veřejná zábava, | závody (sázení), |
| čas, cestování | 793 hry a zábavy v | hry (karetní hry), |
|
| místnosti, 794 hry | domácí mazlíčci |
|
| šikovnosti a | (psi, kočky), |
|
| dovednosti, 795 hry | skauting, známky, |
|
| nahodilé | studentské zájmy, |
|
|
| zájmy teenagerů, |
[61] |
|
| cestování, |
|
|
| zahradničení, |
|
|
| hobby (musí mít |
|
|
| vždy další |
|
|
| specifikaci), volný |
|
|
| čas, knihy, bridž, |
|
|
| karavaning, šachy, |
|
|
| komiksy, kutilství, |
|
|
| zábava, sex |
min | skupiny se |
| mládí, důchod, |
| specifickými zájmy – |
| feminismus, |
| důchodci, etnické |
| gayové a lesbičky, |
| zájmy, postižení, |
| invalidita, drogy, |
| homosexuálové, |
| etnické zájmy, |
| drogy |
| Hispanoameričané, |
|
|
| Afroameričané, |
|
|
| Asioameričané |
reg | region | 354 ostatní země, | venkov, regionální |
|
| 940 Evropa, 950 | zájmy (Amisch, |
|
| Asie, 960 Afrika, 970 | Haiti), Rusko, |
|
| Severní Amerika, | rozvojové země, |
|
| 980 Jižní Amerika, | Antily, Evropa, |
|
| 990 ostrovy | Indie, Japonsko, |
|
| v Pacifiku | Židovství, Střední |
|
|
| východ, |
|
|
| Newfoundland, |
|
|
| Afrika, Aljaška, |
|
|
| Asie, Austrálie, |
|
|
| Kanada, Čína |
Na závěr je třeba říci, že téma/námět textu (topic) patří dodnes k poněkud kontroverzním bodům korpusových projektů. Přes veškerou snahu je totiž obtížné zaručit, že všechny texty (dnes i v budoucnu) budou snadno zařaditelné k některé z dříve vzniklých kategorií. Je také poněkud nesnadné definovat (pro neodborníky, jakými lingvisté v ostatních oborech jsou) jejich hranice a poskytnout tak lidem, kteří pro účely zařazení do korpusu texty kategorizují, explicitní vodítko a kritérium jiné, nežli je jejich osobní náhled na věc.
Přes tyto nevýhody však upřednostňuje většina projektů a také ČNK alespoň základní pomocnou síť kategorií, protože – vzato do důsledků – seznam určitelných kategorií může být téměř nekonečný a předmětem zkoumání se za určitých okolností může stát i velmi malá a přesně vymezená podoblast. Rezignovat kvůli podobným obtížím na jakékoli – byť pro někoho příliš obecné, pro jiného třeba nepřesné – dělení, by bylo rozhodně škoda.
LITERATURA
ASTON, G. – BURNARD, L.: The BNC Handbook. Edinburgh University Press, Cambridge 1998.
ČERMÁK, F.: Czech National Corpus: A case in many contexts. International Journal of Copus Linguistics, 2, 1997, s. 181–197.
ČERMÁK, F. – KRÁLÍK, J. – KUČERA, K.: Recepce současné češtiny a reprezentativnost korpusu. SaS, 58, 1997, s. 117–124.
KENNEDY, G.: An Introduction to Corpus Linguistics. Addison Wesley Longman Limited, Harlow 1998.
KRÁLÍK, J.: Vyvážení zdrojů Synchronního korpusu češtiny SYN2000. SaS, 62, 2001, s. 38–53.
ŠULC, M.: Korpusová lingvistika. První vstup. Karolinum, Praha 1999.
Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, Praha 1
Slovo a slovesnost, volume 62 (2001), number 1, pp. 53-61
Previous Jan Králík: Vyvážení zdrojů Synchronního korpusu češtiny SYN2000
Next Dana Hlaváčková: Korpus mluvené češtiny z brněnského prostředí a jeho morfologické značkování
© 2011 – HTML 4.01 – CSS 2.1