Časopis Slovo a slovesnost
en cz

Vyvážení zdrojů Synchronního korpusu češtiny SYN2000

Jan Králík

[Rozhledy]

(pdf)

Balancing of sources of the Synchronic corpus of Czech SYN2000

Každý textový korpus živého jazyka, zejména jeho synchronní složka, je a vždy zůstane tím, co statistikové nazývají vzorek, výběr (sample). Nahrazuje neuskutečnitelné soustředění naprosto všech možných textů, tedy i textů, které se do korpusů zahrnovaly zatím jen zřídka, např. textů mluvených, dopisů, e-mailů, textů webových stránek apod. V případě vzorku, výběru, se z pozice statistiky neptáme po univerzálnosti využití a v tomto smyslu po vyváženosti, ale po reprezentativnosti, po míře jistoty (pravděpodobnosti), že daný vzorek, výběr, zahrne také ty či ony prvky nebo jevy. Reprezentativnost neroste lineárně s pouhým zvětšováním rozsahu, ale vždy závisí na tom, co sledujeme, na pravděpodobnostních charakteristikách (rozloženích) výskytů sledovaných prvků nebo jevů (srov. Biber, 1993). Z toho je patrné, že čistě statistická (pravděpodobnostní) konstrukce struktury textového korpusu by sice mohla vést k optimalizaci reprezentativnosti pro určitá hlediska, ale nemůže nikdy vést k zaručení vyváženosti korpusu z hlediska univerzálnosti jeho využití.

Nelze-li kvantitativní strukturu stavby lingvisticky univerzálně využitelného korpusu odvozovat od měřítek reprezentativnosti vztažených k jednotlivým – pro korpus vnitřním – jazykovým prvkům či jevům, stále ještě zůstává možnost postupovat z vnějších hledisek pokusem konstruovat strukturu textového korpusu konfrontací a skloubením různých odhadů očekávání potenciálních zájemců o práci s korpusem. V případě Synchronního korpusu češtiny SYN2000, který vzniká v Ústavu Českého národního korpusu zejména díky grantům GAČR – nyní především č. 405/96/K214 – jako nejrozsáhlejší korpus českých textů vůbec, se takové řešení jeví jako možné tím spíše, že SYN2000 je budován právě se záměrem co nejvšestrannější využitelnosti současné i budoucí (srov. Čermák, 1995). Cílem této studie je navrhnout jeden z možných postupů tímto směrem.

 

Míra využitelnosti korpusu závisí na celé řadě faktorů nejen hardwarových a softwarových, ale také lingvistických a sociologických, a to speciálních i ryze praktických. Univerzální, všeobecně uznávaná představa o využití korpusů dosud neexistuje, neboť neexistuje ani představa o všech možných budoucích požadavcích na korpusy jako takové. Jedinou pevnou jistotou zůstává vědomí, že řešením otázky o vyváženosti nemůže být žádný extrém, tedy například pouze souhrn textů dostupných v elektronické podobě, nebo naopak pouze souhrn textů vzniklých tradičně. Podobně je zřejmé, že národní jazykový korpus nemůže být sestaven pouze z jediného typu zdroje, např. pouze z novin, nebo pouze z knih, pouze z časopisů apod. (třebaže každý z takovýchto extrémů může mít svůj význam na úrovni subkorpusů). Konečně je zřejmé, že ná[39]rodní jazykový korpus nemůže být budován ani jako souhrn textů jediného žánru, např. krásné literatury, ani pouze jako souhrn výběrů rovnoměrně pokrývajících všechny obory a oblasti se speciální terminologií např. podle desetinného třídění knih.

Ujasnění extrémů není samoúčelné. Z vnějších hledisek lze univerzálnosti budoucího využití národního jazykového koprusu vyjít vstříc např. hledáním určité oblasti v mnohorozměrném prostoru právě mezi extrémy, jako např. oblasti s hranicemi jistě nikoli ostrými, ale přesto vymezitelnými alespoň intervalově s větší či menší mírou obecné shody, vztahované právě k univerzálnosti budoucího využití SYN2000.

Obecným východiskem při vymezování takovéto hypotetické oblasti by mohlo být hledání vyvážených poloh na třech hlavních osách:

(1) hledání poměru zastoupení textů dostupných v elektronické podobě k zastoupení textů do elektronické podoby převáděných,

(2) hledání poměru zastoupení základních edičních typů textových zdrojů – periodik a knih,

(3) hledání poměru zastoupení textů imaginativních a informativních, a zároveň s tím hledání jemnější struktury v těchto dvou oblastech.

První z těchto os přitom postupně mizí díky rychlosti a spolehlivosti skenování a nepředstavuje již proto ani otázku, ani problém, který se v počátcích budování korpusů jevil jako zásadní.

Hledání vyvážených poloh na zbývajících dvou osách ovšem problémem zůstává, a to nejen obecně. Ani pro SYN2000 se nelze dosud opřít o žádná data, která by bylo možno vztáhnout k tak rozsáhlému textovému korpusu. Dosavadní pracovní návrhy a úvahy o hledaných vyvážených polohách vycházely jednak z lexikální tradice, jednak z intuitivních odhadů nové situace, kterou přináší korpusová lingvistika (srov. Čermák – Králík – Kučera, 1997).

K předkládanému pokusu o vykročení novým směrem jsme proto byli nuceni užít dat vzniklých původně pro jiné účely, a pouze v závěrečných dvou krocích jsme se mohli opřít o sondy provedené pro SYN2000. Následující shrnutí výsledků jednotlivých průzkumů si proto nečiní nárok na úplnost pohledů, a tím ani na konečné slovo v navrhování struktury SYN2000. Vzhledem k rozmanitosti užitých pohledů a k reprezentativnosti dat se však domníváme, že případné další průzkumy by již neměly vnést do předkládaných závěrů a návrhů zásadní zvrat, ale pouze určitá zpřesnění.

Abychom mohli výsledky užitých průzkumů přímo konfrontovat s prvním (původním) pracovním návrhem struktury SYN2000, který měl spíše interní charakter (srov. Čermák, 1997; Šulc, 1999), a abychom mohli navrhnout proporce souhrnů témat, předložených v následujícím příspěvku (Šulc, 2001), provedli jsme na dostupných datech další výpočty a souhrny, případně statistické testy. Takto upravená data jsme pak porovnali s dosavadním pracovním návrhem a na základě vzájemné konfrontace postupně navrhujeme jeho korekce. Z dat získaných z jednotlivých průzkumů uvádíme jen nejnutnější výběr.

 

1. průzkum

Poměr zastoupení: knihy / časopisy / noviny

(Čtení knih, časopisů a novin: „Opinion Window Prague”, 1996)

[40]Statistická data z šetření s 1081 respondenty jako vzorkem běžné populace. Za jednotku – podle položené otázky – je snad možno (s výhradou jisté neurčitosti) chápat „den, kdy respondent četl sledovanou tiskovinu”, nebo „den obohacený čtením sledované tiskoviny”. Srovnatelné údaje lze získat postupným součtem procent čtenářů, kteří „obohatili svůj den četbou sledované tiskoviny”, anebo výpočtem podílu mezi „dny se sledovanou tiskovinou” a celkovým počtem dnů, o nichž respondenti vypovídali. Údaje typu „2–3x za měsíc“, resp. „2–3x za půl roku“ přepočítáváme z praktických důvodů na průměry „2,5krát“.

Z úhrnného počtu 1081 respondentů zcela nezasaženo četbou knih bylo 7 %, zcela nezasaženo četbou časopisů 3 % a zcela nezasaženo četbou novin 3 %. Sledované tiskoviny tedy ovlivňují naprostou většinu populace (93 % a 97 %).

Po provedení nových výpočtů v souhrnu interních disjunktních kategorií lze říci, že „respondenti vzali do ruky knihu a četli” denně ve 20,3 % případů, tj. jinými slovy: denně se začetl do knihy zhruba každý pátý člověk. V obdobném šetření pro časopisy a noviny v průměru „respondenti vzali do ruky časopis a četli” denně ve 23,1 % případů a v průměru „respondenti vzali do ruky noviny a četli” denně v 66,5 % případů.

 

Shrnutí: Z 1. průzkumu a z výpočtů na něm založených vyplývá, že četbou knih je denně ovlivněn zhruba každý pátý člověk, četbou časopisů každý čtvrtý a četbou novin jsou ovlivněni z každých tří lidí dva.

Protože zjištěná procenta nereprezentují disjunktní množiny respondentů, nelze je sčítat. Lze je však považovat za odhad míry vlivu sledovaných druhů tiskovin na populaci čtenářů jako celek. Lze tak např. říci, že s texty novin se čtenáři setkávají výrazně častěji (zhruba třikrát) než s texty časopisů a knih. Texty časopisů a jazyk knih mají srovnatelnou příležitost k vlivu na čtenářskou populaci. Časopisům se přitom čtenáři věnují poněkud více než knihám. V konkurenci základních tištěných zdrojů čtených textů jazyka knihy / časopisy / noviny (tj. bez tiskovin úředních) lze podle tohoto průzkumu charakterizovat příležitost ke vlivu na čtenáře úměrou 

20,3 : 23,1 : 66,5

tj. v přepočtu na virtuální celek 100 %:

 

Tab. 1. Příležitost k vlivu na čtenáře

knihy

časopisy

noviny

18,5 %

21,0 %

60,5 %

 

Protože daný průzkum nesledoval míru využití této příležitosti, tj. skutečnou čtenost, její intenzitu měřenou buď časem, nebo počtem přečtených stránek, vět, slov apod., vypovídací hodnota tohoto průzkumu je do značné míry sociologická. Může však být podkladem k diskusi o očekávání struktury textových zdrojů SYN2000 z hlediska běžné čtenářské populace.

 

Dílčí závěr: Stála-li v původní úvaze o projektu SYN2000 úměra: 

44 % (knihy) : 25 % (časopisy) : 31 % (noviny),

[41]lze říci, že příslušníci běžné čtenářské populace (Tab. 1) by mohli na rozdíl od tohoto návrhu očekávat spíše dvojnásobné zastoupení novin a poloviční zastoupení knih.

 

2. průzkum

Naučná literatura / krásná literatura

(Výpůjčky ve veřejných knihovnách: „Statistika veřejných knihoven ČR”, 1996)

Statistická data o výpůjčkách ve veřejných knihovnách ČR zahrnují celkový počet téměř 135 milionů výpůjček.

Dostupné detailní údaje sledovaly pro léta 1990, 1993 a 1994 jednotlivě všechny okresy začleněné do krajů a v nich souhrnně počty výpůjček jednak knih naučné literatury pro dospělé, jednak tzv. krásné literatury pro dospělé, a u obou těchto kategorií totéž zvlášť také pro dětské čtenáře. Číselné údaje lze sdružit a jejich procentuální zastoupení navzájem konfrontovat.

Vypovídací hodnota konfrontací je posílena jednak rozsahem, jednak stabilitou pomalého, téměř lineárního růstu úhrnných součtů výpůjček:

Pro náš účel relevantní je možnost členit data do dvou skupin na naučnou literaturu a (/) na krásnou literaturu.

 

Tab. 2. Poměr % počtů výpůjček: naučná literatura / krásná literatura ve veřejných knihovnách ČR (souhrn dat)

oblast

1990

1993

1994

Praha

30,0 / 70,0

24,8 / 75,2

28,2 / 71,8

Střední Čechy

37,4 / 62,6

36,3 / 63,7

35,4 / 64,6

Jižní Čechy

42,4 / 57,6

43,7 / 56,3

41,1 / 58,9

Západní Čechy

38,1 / 61,9

37,0 / 63,0

37,7 / 62,3

Severní Čechy

35,6 / 64,4

33,3 / 66,7

33,0 / 67,0

Východní Čechy

37,4 / 62,6

39,1 / 60,9

38,4 / 61,6

Jižní Morava

40,3 / 59,7

40,0 / 60,0

41,0 / 59,0

Severní Morava

36,6 / 63,4

40,4 / 59,6

40,7 / 59,3

v souhrnu:

37,4 / 62,6

35,8 / 64,2

36,3 / 63,7

 

Vyšší počty výpůjček naučné literatury a periodik v jižních Čechách a na Moravě jsou zřejmě dány postavením veřejných knihoven, které zde plní zčásti i úlohu knihoven odborných.

Souhrn vypočtený z celé sumy dat:

(42169360 + 45856810 + 46845767 = 134 871 937 výpůjček), tj. pro cca 135 milionů výpůjček:

 

Tab. 3. Úhrnný poměr naučné a krásné literatury pro 135 milionů výpůjček

naučná literatura

krásná literatura

36,5 %

63,5 %

 

Dílčí závěr: Pro souhrn běžné populace čtenářů včetně specifických okruhů vědeckých a odborných pracovníků, příp. studentů lze považovat zjištěný poměr zájmu o naučnou a krásnou literaturu (Tab. 3) za silně stabilizovaný. Stabilita tohoto poměru je podložena dlouhodobými, krátkodobými i oblastně stratifikovanými daty.

[42]Navrhovaný poměr v původním projektu SYN2000 (naučná literatura 33 % / krásná literatura: 67 %) by tedy z hlediska 2. průzkumu nevyžadoval zásadní korekci, ovšem s výhradou, že celou čtenářskou obec návštěvníků knihoven nelze považovat za prostý násobek potenciálních zájemců o práci se SYN2000.

 

3. průzkum

Naučná literatura / krásná literatura

(Čtenáři nových knih: „Výzkum dr. Halady a dr. Jeřábka”, 1994)

Statistická data o struktuře zájmů čtenářů nových knih byla pořízena pro období od října 1994 do ledna 1995 pro Fakultu sociálních věd UK, Obec spisovatelů a časopis Nové knihy. Průzkum zjišťoval informovanost čtenářů o nově vydávaných knihách, jejich představu o knižním trhu, o vhodnosti technického řešení knižní produkce, o vlastní preferenci žánrů apod. Celkový počet respondentů činil 1041, kontrolní soubor 171 (asi 1/5).

Průzkumem soustředěná data umožnila – díky kontrolnímu souboru – ověřit vypovídací hodnotu jejich struktury pomocí testu pro dva nezávislé výběry. Kritérium testu Kolmogorov – Smirnov (k) na hladině významnosti 0,05 % nepřekročilo kritickou hodnotu (D): 

k = 0,064 < 0,0763 = D

a test tak potvrdil, že data lze považovat za výběry z téhož základního souboru. Protože víme, že základní soubor (populace) byl skutečně týž, znamená to jinými slovy, že test potvrdil reprezentativnost obou výběrů, zde výslovně i výběru méně početného (kontrolního).

Pro SYN2000 relevantní otázka zněla: „Vyberte z následujících žánrů jeden, který preferujete, popřípadě druhý, třetí”. Vzhledem k podrobnosti sledovaných kategorií lze dat využít pro SYN2000 k více účelům (viz níže 6. průzkum).

 

Přípravný souhrn: Označení „preference žánru” považujeme za příspěvek k vyšší váze daného žánru a součet takových preferencí za míru přednostního zájmu o žánr. Respondentem udané „druhé pořadí” proto do součtu vah oslabujeme na 2/3 významu a třetí pořadí na 1/3 významu. Součet vah (S) pak slouží k určení procentuálního vyjádření celkového zájmu o daný žánr.

Váhy preferencí, zjištěné v obou výběrech, lze vzhledem k jejich konstrukci a vzhledem k výsledku testu sčítat.

 

Tab. 4. Naučná literatura (součty vah)

žánr

1. výběr

2. výběr

S

%

literatura faktu

287

39

326

13,20

populárně naučná

230

26

256

10,37

o umění

239

14

253

10,24

odborná literatura

168

35

203

8,22

o zdraví

46

2

48

1,94

hobby / volný čas

26

2

28

1,13

součet

 

 

 

45,10

 

[43]Tab. 5. Krásná literatura (součty vah)

žánr

1. výběr

2. výběr

S

%

romány

523

95

618

25,02

historická próza

175

24

199

8,06

detektivky

112

20

132

5,34

humor a satira

69

22

91

3,6

poesie

86

15

101

4,09

dorodružná četba

47

12

59

2,39

science fiction

49

4

53

2,15

thrillery

32

6

38

1,54

milostné romány

26

6

32

1,30

dětská literatura

21

1

22

0,89

kovbojky

4

2

6

0,24

erotika

4

0

4

0,16

comics

0

1

1

0,04

součet

 

 

 

54,90

 

Dílčí závěr: Soustavní čtenáři nových knih – jako vzorek čtenářské a sebevzdělávající se populace – se zajímali v období 1994/1995 o naučnou a krásnou literaturu v poměru:

 

Tab. 6. Zájem čtenářů o nové knihy

naučná literatura

krásná literatura

45,1 %

54,9 %

 

Ze strany čtenářů nových knih lze předpokládat obdobné preference i pro jejich očekávání struktury SYN2000, kde byl původně navrhován poměr naučná literatura: 33 % / krásná literatura: 67 %, tedy poměr kontrastnější.

 

4. průzkum

Naučná literatura / krásná literatura

(Vztah mezi fondy a výpůjčkami ve veřejných knihovnách: „Struktura fondů a výpůjček v knihovnách v r. 1994”)

Statistická data o struktuře fondů a výpůjček zahrnují informace z Prahy z roku 1994 z Ústřední knihovny, z Městské knihovny, z obvodních knihoven a z pojízdných knihoven. Vzhledem k prokázané stabilitě obdobných dat jak v jiných regionech, tak v jiných letech, lze tyto údaje považovat za statisticky reprezentativní.

Z dat lze pro náš účel vyčlenit část týkající se kvantitativní relace mezi naučnou a tzv. krásnou literaturou jednak z hlediska nabídky ve fondech, jednak z hlediska poptávky při výpůjčkách. U tří typů knihoven proto data nedosahují 100 % (nejsou započteny další oblasti výpůjček).

V častějších (běžných) typech knihoven (městská, obvodní, pojízdné) je zřetelně vyšší poptávka po krásné literatuře (od +9,6 % v městské knihovně po +20,4 % v pojízdné knihovně). Poptávka po naučné literatuře je v těchto typech knihoven velmi výrazně nižší než její nabídka (od -12,2 % v městské knihovně po -69,2 % v pojízdné knihovně). To zjevně souvisí s účelem těchto knihoven. Naopak v ústřední knihovně je výrazně vyšší poptávka po naučné literatuře (+23,4 %) a velmi výrazně nižší po[44]ptávka po krásné literatuře (-40,3 %). Tato zásadní odlišnost souvisí jednak s jiným způsobem vzniku i budování fondů, jednak s povahou využití ústřední knihovny, v tomto případě jako servisu pro studenty vysokých škol.

 

Tab. 7. Vztah mezi strukturou fondu (nabídkou) a strukturou výpůjček (poptávkou) naučné literatury (N) a krásné literatury (K) v různých typech knihoven

typ

 

fond

výpůjčky

poptávka

knihovny

%

poměr

%

poměr

po fondu (100 %)

ústřední

(N)

45,54    

63,31    

67,97    

78,10    

(N)

+ 23,4 

 

(K)

36,39    

36,69    

19,05    

21,90    

(K)

– 40,3 

 

 

71,93 %

100,00 %

87,02 %

100,00 %

 

 

městská

(N)

38,70    

44,08    

33,17    

38,70    

(N)

– 12,2 

 

(K)

49,09    

55,92    

52,55    

61,30    

(K)

+ 9,6

 

 

87,79 %

100,00 %

85,72 %

100,00 %

 

 

obvodní

(N)

36,12    

38,41    

23,88    

27,99    

(N)

– 27,2 

 

(K)

57,93    

61,59    

61,44    

72,01    

(K)

+ 16,9 

 

 

94,05 %

100,00 %

85,32 %

100,00 %

 

 

pojízdné

(N)

22,75    

22,75    

6,60    

7,00    

(N)

– 69,2 

 

(K)

77,25    

77,25    

87,64    

93,00    

(K)

+ 20,4 

 

 

100,00 %

100,00 %

94,24 %

100,00 %

 

 

 

Šetření provedené na základě 4. průzkumu potvrzuje, že pro odhad očekávatelného zájmu běžné populace o strukturu SYN2000 jsou blíže skutečnosti údaje zjištěné v běžných knihovnách. Naopak údaje z ústředních knihoven jsou blíže skutečnosti pro odhad zájmu mezi studenty, odborníky a vědeckými pracovníky.

 

Shrnutí: Možnost přímého využití výsledků 4. průzkumu je ztížena růzností kritérií členění literatury (např. platí literatura odborná = naučná, ale nemusí nutně platit literatura non-odborná = krásná). Pokud bychom přistoupili na dané členění i s touto výhradou, mohli bychom říci:

Očekávání struktury SYN2000 ze strany běžných návštěvníků knihoven bude zřejmě klást důraz spíše na zastoupení krásné literatury, zatímco očekávání ze strany studentů, odborníků a vědeckých pracovníků bude klást důraz na zastoupení literatury naučné. Za odhady míry těchto očekávání lze považovat výše uvedené numerické hodnoty tzv. „poptávky po fondu”.

 

Dílčí závěr:

 

Tab. 8. Poměr počtů výpůjček naučné a krásné literatury v městské knihovně

naučná literatura

krásná literatura

38,70 %

61,30 %

 

se blíží výsledku předběžného výzkumu pro běžné čtenáře v celé republice (viz výše v 2. průzkumu zjištěný poměr naučná literatura: 36,5 % / krásná literatura: 63,5 %).

Za předběžný odhad přirozeného očekávání struktury SYN2000 ze strany studentů, odborných a vědeckých pracovníků lze považovat strukturu fondů ústřední knihovny, z nichž tyto skupiny zájemců vybírají, tj. poměr:

 

[45]Tab. 9. Struktura fondů ústřední knihovny

naučná literatura

krásná literatura

63,31 %

36,69 %

 

Za předběžný odhad pracovního očekávání struktury SYN2000 ze strany týchž potenciálních zájemců o SYN2000 je naopak možno považovat poměr počtů výpůjček naučné a krásné literatury v ústřední knihovně, tj. poměr:

 

Tab. 10. Struktura výpůjček ústřední knihovny

naučná literatura

krásná literatura

78,10 %

21,90 %

 

V původním projektu SYN2000 navrhovaný poměr 

naučná literatura: 33 % / krásná literatura: 67 %

by tak byl výsledky 4. průzkumu výrazně korigován ve prospěch naučné literatury, na úkor literatury krásné.

 

Shrnutí průzkumů č. 2 až 4

Naučná literatura / krásná literatura

Předpokládaná očekávání různých skupin potenciálních zájemců o SYN2000 porovnáme ještě s údaji o dvou dalších korpusových projektech, připravených v minulých desetiletích jednak v oddělení matematické lingvistiky Ústavu pro jazyk český AV ČR v Praze, jednak v Jazykovědném ústavu Ľudovíta Štúra AV SR v Bratislavě:

 

Tab. 11. Shrnutí průzkumů očekávaného zastoupení naučné a krásné literatury

literatura:

naučná

krásná

poměr N/K

projekt ÚJČ 1970

54,0 %

46,0 %

1,17

projekt JÚĽŠ 1997

55,0 %

45,0 %

1,22

původní návrh struktury SYN2000

33,0 %

67,0 %

0,49

2. průzkum: běžní čtenáři

36,5 %

63,5 %

0,57

3. průzkum: soustavní čtenáři

45,1 %

54,9 %

0,82

4. průzkum: specializovaní zájemci

 

fondy (nabídka)

63,3 %

36,7 %

1,72

 

výpůjčky (poptávka)

78,1 %

21,9 %

3,56

 

Dílčí závěr: Přestože koncepci SYN2000 nelze přímo odvozovat ani od dosavadních klasických projektů textových korpusů, ani od výsledků průzkumů provedených za jiným účelem, dostupné průzkumy i data z předchozích projektů shodně naznačují, že z hlediska potenciálních zájemců o SYN2000 by bylo vhodné v původním návrhu struktury SYN2000 početně posílit zastoupení naučné literatury na úkor literatury krásné.

Jedním z možných nových návrhů by mohla být rovnovážná hodnota poměru N/K vypočtená ze souhrnu výsledků 2. až 4. průzkumu: 

(0,57 + 0,82 + 1,72 + 3,56) : 4 = 1,67

[46]Této hodnotě by odpovídalo řešení:

 

Tab 12. Návrh poměru naučné a krásné literatury

literatura:

naučná

krásná

poměr N/K

daný poměr:

 

 

1,67

výpočet pro hodnotu 100 %:

62,5 %

37,5 %

 

 

5. průzkum

Struktura zájmu o naučnou literaturu

(„Statistika veřejných knihoven ČR, 1996 – Výpůjčky literatury podle tematického zaměření”, část užita již pro 2. průzkum)

Statistická data o počtech výpůjček základních druhů naučné literatury ve veřejných knihovnách ČR byla členěna podle jednotlivých krajů. Souhrnný počet sledovaných výpůjček činil 15 876 725. Regionální struktura dat je velmi různorodá nejen z hlediska souhrnných počtů výpůjček, ale také z hlediska členění oborů (výrazně nižší zájem o společenské obory v severních a západních Čechách, výrazně nižší zájem o technické obory v Praze a v jižních a severních Čechách apod.)

Vzhledem k místní i časové stabilitě dat tohoto druhu (srov. výše 2. průzkum), a také vzhledem k jedinečnému postavení SYN2000, je možno a třeba pracovat se souhrnem dat bez ohledu na jejich regionální původ. Tento souhrn lze pak přímo porovnat s vybranými údaji z původního projektu SYN2000 jako virtuálním korpusem naučné literatury:

 

Tab. 13. Struktura naučné literatury

literatura:

5. průzkum

původní návrh pro SYN2000

společenská

30,1 % 

31,3 % 

přírodní

8,4 %

8,7 %

zemědělská

5,4 %

4,7 %

technická

22,0 % 

14,9 % 

ostatní

34,1 % 

40,4 % 

 

100,0 %  

100,0 %  

 

Dílčí závěr: Z hlediska zájmu o naučné obory, zjišťovaného u běžných návštěvníků veřejných knihoven, lze označit dosavadní návrh souhrnů naučných oborů (společenské vědy a přírodní vědy) za vyhovující. Dílčí korekce by se mohly týkat zastoupení zemědělských a technických oborů a rozmanitosti oborů shrnutých mezi „ostatní“.

 

6. průzkum

Struktura zájmu o literaturu z hlediska čtenářů nových knih

(další data z 3. průzkumu „Výzkum dr. Halady a dr. Jeřábka”, 1994 – Statistická data o struktuře zájmů čtenářů nových knih; bližší komentář viz též výše u 3. průzkumu)

Respondenti plnili mj. pokyn: „Vyberte z následujících žánrů jeden, který preferujete, popřípadě druhý, třetí”. Při zpracování dat opět považujeme označení „preference žánru” za příspěvek k vyšší váze daného žánru a součet takových preferencí za míru přednostního zájmu o žánr. Při určování vah postupujeme shodně s metodikou [47]použitou při zpracování dat z 3. průzkumu. Součet vah (S) tedy může sloužit k určení procentuálního vyjádření celkového zájmu o daný žánr.

 

Tab. 14. Relevantní pořadí žánrů podle výsledných vah preferencí

druh literatury:

1. výběr

2. výběr

(S)

%

romány

523

95

618

25,02

literatura faktu

287

39

326

13,20

populárně naučná

230

26

256

10,37

o umění

239

14

253

10,24

odborná literatura

168

35

203

8,22

historická próza

175

24

199

8,06

detektivky

112

20

132

5,34

humor a satira

69

22

91

3,68

poesie

86

15

101

4,09

dobrodružná četba

47

12

59

2,39

science fiction

49

4

53

2,15

o zdraví

46

2

48

1,94

thrillery

32

6

38

1,54

milostné romány

26

6

32

1,30

hobby / volný čas

26

2

28

1,13

dětská literatura

21

1

22

0,89

kovbojky

4

2

6

0,24

erotika

4

0

4

0,16

comics

0

1

1

0,04

celkem

2144

326

2470

100,00 %

 

Výsledné váhy preferencí (zde ve sloupci %) lze považovat za reprezentativní obraz (odhad) skutečných preferencí, s nimiž běžní čtenáři vyhledávají ke čtení žánr nově vydávaných knih.

Z takto vypočtených vah preferencí lze užít k dalšímu srovnání ty položky, pro které existují v návrhu struktury SYN2000 přímé paralely. Srovnatelnost lze zajistit shrnutím dat do virtuálních subkorpusů. I při rozdílnosti členění takových subkorpusů by bylo možno říci, že čtenáři nových knih – jako potenciální uživatelé korpusu – by mohli být v původně navrhované struktuře SYN2000 spokojeni např. se zastoupením detektivních příběhů. V SYN2000 by však očekávali několikanásobně vyšší zastoupení románů, výrazně vyšší zastoupení historické prózy a vyšší zastoupení humoru a satiry a poesie atd.

Naopak by bylo možno říci, že z hlediska těchto potenciálních uživatelů SYN2000 bylo v původním projektu SYN2000 nadhodnoceno zastoupení dobrodružné četby, literatury science fiction a dětské literatury. Zjevně neúměrně bylo z tohoto pohledu v původním návrhu struktury SYN2000 přeceněno zastoupení erotické literatury (šlo zřejmě o numerický omyl). Neúměrně nadhodnoceno se také ukázalo původně navržené zastoupení písňových textů atd.

 

7. průzkum

Katalog domácích periodik

(„Šetření mgr. M. Šulce v Národní knihovně v Praze”, 1998)

[48]Statistická data získaná z Katalogu domácích periodik v Národní knihovně v Praze mohou sloužit k získání určité představy o struktuře zájmů čtenářů časopisů.

Omezením vypovídací hodnoty tohoto průzkumu je skutečnost, že míru kontaktu čtenářů s jednotlivými časopisy nelze nijak přímo zjistit, a tím ani přímo srovnávat. Nejen proto, že není znám rozsah časopisů (srovnatelné by nebyly počty stránek, ale průměrné počty slov), ale především proto, že není znám ani způsob čtení, ani jeho intenzita (čtení běžné, studijní, z opakovaně či dlouhodobě zapůjčeného časopisu apod.). Statistických dat je proto možno využít k dalšímu zpracování pouze podmíněně, např. přijmeme-li za obraz míry kontaktu čtenáře s určitým oborem, reprezentovaným právě daným časopisem, jedno číslo (jedno vydání) daného časopisu jako takové.

Frekvenci vydávání pak můžeme poměřovat např. s frekvencí měsíčníku. Vzhledem k takovéto jednotce je pak např. týdeník čtyřnásobně významný, deník třicetinásobně významný apod. V tomto smyslu lze vypočítat váhy oborů, reprezentovaných vydávanými časopisy, tj. „během jednoho měsíce vydaný průměrný počet čísel časopisu daného oboru” (v zaokrouhlení na celá čísla). Např. pro časopisy z oblasti divadla a baletu (srov. tab. níže): (5:3 = [2]) + (7 x 1 = [7]) + (2 x 2 = [4]) = 13.

Z žánrových důvodů ponecháváme stranou deníky (noviny), protože tvoří samostatně sledovanou položku (srov. 1. průzkum).

 

Tab. 15. České informativní časopisy v Národní knihovně v Praze 1998

vychází

méně

týdně

měsíčně

14denně

 

počet čísel za rok

..

52

12

26

 

pro výpočet váhy

:3

x4

x1

x2

váha

publicistika

1

2

 

 

8

nestandardní časopisy

1

 

 

 

0

školní časopisy

1

 

1

 

1

celostátní a regionální všeobecné

105

93

361

47

862

propagace ČR

8

 

2

2

9

administrativa

4

2

1

 

10

dokumenty

1

 

 

 

0

památky

 

 

1

 

1

informace ČTK

 

 

 

1

2

kultura

11

2

9

 

21

společenské vědy

2

 

2

 

3

hudba

7

1

12

1

20

televize, film

3

2

4

 

13

právo, notářství, kriminalistika

12

 

13

 

17

dějiny, archeologie

16

 

3

 

8

psychologie

3

 

1

 

2

výchova, osvěta

16

2

10

 

23

sociologie, komunikace

3

 

1

 

2

vojenství

6

 

5

1

9

filosofie

6

 

1

 

3

architektura

 

 

 

1

2

výtvarné a užité umění

14

 

4

1

11

divadlo, balet

5

 

7

2

13

[49]politologie, politika

2

4

12

2

33

literatura, knihy

14

1

1

1

16

lingvistika

5

2

 

 

10

etno-, antropo-, folklor

9

 

2

 

5

excentrika

1

 

 

 

0

knihovnictví, informatika

24

2

8

 

24

mezinárodní vztahy

2

1

6

1

13

emigrace

 

 

 

1

2

partnerské vztahy

 

 

 

2

4

přírodní vědy

8

 

1

 

4

zemědělství, les, chov

25

4

54

2

80

medicína, farmakologie

88

4

24

1

71

zoologie

5

 

2

 

4

botanika

4

 

 

 

1

biologie

7

 

 

 

2

chemie

3

1

3

 

8

matematika

6

 

 

 

2

geografie, geodezie

3

 

2

 

3

astronomie

4

 

 

 

1

fyzika

 

 

1

 

1

meteorologie

1

 

2

 

2

geo-, hydro-, mineralogie

5

 

 

 

2

ekologie, životní prostředí

17

 

16

1

24

statistika

17

 

3

 

9

technika

 

2

1

 

9

doprava, pošta

6

2

11

3

27

energetika

8

3

11

2

30

průmysl, stavebnictví

41

19

53

24

191

informace, počítače

17

2

12

3

32

hospodářství, nadace

12

1

3

 

11

ekonomika, obchod, banky

21

22

41

10

156

řízení, management

4

2

4

 

13

inzerce, info-, reklama

8

30

33

14

184

náboženství, teologie

30

2

20

10

58

domov, odívání

18

 

23

1

31

sport, skauting

19

17

20

4

102

společnost, horoskopy

3

2

5

2

18

hry, hobby, sbírky

59

33

84

19

312

bezpečnost, futuristika

4

 

 

 

1

smíšené

 

 

1

 

1

město, služby

2

 

 

2

1

práce, odbory

 

3

1

 

17

Slováci

 

 

1

 

1

Romové

 

1

2

 

6

homosexualita

1

 

4

 

4

astrologie, záhady

 

 

4

 

4

výživa, jóga

 

 

4

 

4

spolky, sdružení

 

 

 

4

8

 

[50]Tab. 16. České imaginativní časopisy v Národní knihovně v Praze 1998

vychází

méně

týdně

měsíčně

14denně

 

počet čísel za rok

..

52

12

26

 

pro výpočet váhy

:3

x4

x1

x2

váha

o lásce

 

 

3

 

3

detektivní příběhy

 

 

4

 

4

humor, satira, anekdoty

 

 

6

 

6

dobrodružství

 

 

1

 

1

science fiction

2

 

1

 

2

pro děti a mládež

2

1

18

 

23

erotika, pornografie

8

 

17

2

24

bulvár

 

 

 

1

2

 

Dílčí závěr: Zjištěná struktura je od původního (interního) návrhu pro SYN2000 zcela odlišná. Ani v detailním pohledu nelze vystopovat žádnou paralelu.

Z hlediska struktury českých časopisů registrovaných v Národní knihovně by bylo možno konstatovat pouze, že návrh struktury SYN2000 by mohl výrazně více využít časopisecké nabídky v oborech hry, hobby, sbírky, zábava a podstatněji také např. v oborech medicína a farmakologie, zemědělství, les, chov a politologie, politika.

Relevantní závěr směrem k dosavadnímu návrhu struktury SYN2000 by mohlo přinést sdružení jednotlivých oborů do vyšších okruhů. Týchž dat jsme proto využili ještě jednou. Aby byla zachována možnost srovnání, zaměřili jsme se přednostně na odbornou informativní oblast a její vnitřní poměry.

Porovnání pak opět ukázalo rozdíly obou sledovaných struktur: v tématech časopisů výraznou převahu průmyslu, techniky, stavebnictví a energetiky (proti návrhu SYN2000 v úhrnu +67 %) a sportu a hobby (+66 %). Zcela zvláštním fenoménem se ukázaly být časopisy medicínských oborů, jejichž početnost v katalogu (+129 %) zřejmě souvisí s historicky danou početností a se stále intenzívnějším rozšiřováním nejnovějších medicínských poznatků i mimo výlučně výzkumná centra. Zmíněná převaha nabídky vzniká zejména na úkor témat administrativy (-70 %), přírodních věd (-46 %) a humanitních oborů (-43 %).

Případná doporučení ke korekcím v dosavadním návrhu struktury SYN2000, která by se nabízela na pozadí těchto poznatků, mohou být oslabena výhradami uvedenými v úvodu tohoto oddílu i tím, že všechny sledované obory mají pro své zastoupení v SYN2000 i jiné než pouze časopisecké zdroje. Šetření provedené na základě 7. průzkumu má však zároveň nezpochybnitelné statistické opření ve spolehlivosti a poměrné stabilitě výchozích dat.

 

8. průzkum

Katalog zahraničních a tuzemských odborných periodik 1998

(„Šetření mgr. M. Šulce”, 1998)

Statistická data o počtu zahraničních a tuzemských periodik (časopisů) registrovaných pro různé okruhy oborů byla získána jako výběr z Katalogu zahraničních a tuzemských periodik 1998 excerpcí stránek 1–20 a 197–208, tedy stratifikovaným výběrem.

[51]Přirozeným informačním omezením těchto údajů jsou tři skutečnosti: katalog nerozlišuje ani jazyk, ani rozsah časopisů (jednotlivých čísel, vydání), ani neuvádí počet výpůjček. Naproti tomu lze přirozeně předpokládat, že jde o výběr ze souhrnu nabídky, utvářené po delší dobu stabilním publikačním i čtenářským zájmem o jednotlivé obory. Pro obory často žádané je nabídka rozšiřována o další specializované časopisy. Dlouhodobě působící tlak poptávky po cizojazyčném časopisu má v daném oboru vliv na vznik či rozvoj časopisu domácího. Z tohoto hlediska budeme pro naše šetření považovat za relevantní pouhý počet časopisů zastupujících určitý obor. V daném virtuálním celku pak vypočteme procentuální zastoupení.

 

Tab. 17. Souhrnné počty odborných časopisů v katalogu periodik, 1998 (výběr stránek 1–20 a 197–208)

kód

obor

%

100

medicína

23,16 

200

přírodní vědy

25,29 

300

humanitní obory

24,12 

400

obory průmyslové

6,06

500

zemědělství

5,42

600

technické obory

9,14

700

sport, hobby

2,55

800

všeobecné informační služby

2,03

900

policie, vojenství

2,23

celkem

 

100,00  

 

Dílčí závěr: Podobně jako u předchozího 7. průzkumu, také v tomto případě je třeba konstatovat, že při porovnání obou struktur (původní interní návrh SYN2000 / 8. průzkum) v žádné dvojici oborů nelze hovořit o shodě. Lze tu sice stopovat určité náznaky podobností trendů např. ve vzájemně bližším procentuálním zastoupení oborů zemědělských a technických, příp. vojenských, současně je však opět třeba konstatovat zásadní odlišnosti v zastoupení oborů medicínských, přírodovědných, administrativních a sportovních (v původním návrhu SYN2000 by se tyto obory jevily jako výrazně podhodnoceny). V porovnání s obdobným 7. průzkumem, jehož data čerpají ze systematicky zpracovaného celku, stratifikovaná data 8. průzkumu mají slabší vypovídací hodnotu.

 

Návrh korekcí struktury SYN2000

Souhrnný návrh korekcí původního projektu SYN2000 vychází nejen z poznatků z výše uvedených osmi průzkumů, ale také z diskuse pracovníků Ústavu Českého národního korpusu o záměru a smyslu SYN2000. Interní obhajoba první verze tohoto návrhu proběhla na půdě ústavu 19. 1. 1999. Předložený návrh je tak výsledkem konfrontace a volby z několika variant, posuzovaných také (1) vzhledem k požadavku co nejširšího záběru SYN2000, (2) vzhledem k omezené dostupnosti hovorového (nejen mluveného) jazyka a (3) vzhledem k prestižní univerzálnosti využití SYN2000.

Za výchozí bod první úrovně členění textových zdrojů SYN2000 byl vzhledem k jeho závažnosti přijat výsledek 1. průzkumu pro noviny (denní tisk): zastoupení 60 %.

[52]Pro druhou úroveň členění (v části „non-noviny“ další členění na texty informativní a imaginativní, resp. na literaturu naučnou a krásnou) byl jako orientační přijat vyvážený souhrn výsledků 2. až 4. průzkumu v hodnotě poměru 1,67 a odtud pro celek SYN2000 vypočteno procentuální zastoupení naučné literatury 25 % a krásné literatury 15 % (25 : 15 = 1,67).

Pro třetí, detailní úroveň členění (rozvržení subkorpusů informativních a imaginativních textů) pak bylo využito konkrétních výsledků 3. a 5. až 7. průzkumu, a to jednak s přihlédnutím k výsledkům a trendům zjištěným v 3. průzkumu, jednak s ohledem k rozpětí mezi výsledky 5. průzkumu a původním návrhem. V plné váze byla vzata v úvahu detailní zjištění 6. a 7. průzkumu.

Vypočtená procentuální zastoupení jednotlivých oborových oblastí a jejich dalšího členění byla ještě korigována přihlédnutím k dosavadním zkušenostem s dostupností textů.

 

Tab. 18. Souhrnný návrh rozvrhu struktury zdrojů SYN2000 

imaginativní texty

15 %

 

krásná literatura 15 %

 

 

poesie

0,81 %

 

 

drama

0,21 %

 

 

próza

11,02 %

 

 

jiné

0,36 %

 

 

přechodové

2,60 %

 

 

součet

15,00 %

 

informativní texty

85 %

 

publicistika 60 %

 

 

součet

60,00 %

 

 

odborné texty 25 %

 

 

vědy o umění

3,48 %

 

 

sociální vědy

3,67 %

 

 

právo a bezpečnost

0,82 %

 

 

přírodní vědy

3,37 %

 

 

technika

4,61 %

 

 

ekonomie a řízení

2,27 %

 

 

víra, náboženství

0,74 %

 

 

životní styl

5,55 %

 

 

administrativa

0,49 %

 

 

součet

25,00 %

 

celkem

 

100 %

         

 

PRAMENY

 

Výsledky průzkumu „Čtenáři nových knih“, Výzkum dr. Halady a dr. Jeřábka, 1994, 12 s.

Výsledky průzkumu „Vztah mezi fondy a výpůjčkami ve veřejných knihovnách“, Struktura fondů a výpůjček v knihovnách v r. 1994, 2 s.

Výsledky průzkumu „Čtení knih, časopisů a novin“, Opinion Window Prague, srpen 1996, 17 s.

Výsledky průzkumu „Výpůjčky ve veřejných knihovnách“, Statistika veřejných knihoven ČR, 11. 3. 1996, 8 s.

[53]Výsledky průzkumu „Statistika veřejných knihoven ČR – Výpůjčky literatury podle tematického zaměření”. Statistika veřejných knihoven ČR, 11. 3. 1996, 8 s.

Výsledky průzkumu „Katalog domácích periodik“, Šetření mgr. M. Šulce v Národní knihovně v Praze, 1998

Výsledky průzkumu „Katalog zahraničních a tuzemských odborných periodik 1998”, Šetření mgr. M. Šulce, 1998

 

LITERATURA

 

BIBER, D.: Representativeness in corpus design. Literary and Linguistic Computing, 8 (4), 1993, s. 243–257.

ČERMÁK, F.: Jazykový korpus: Prostředek a zdroj poznání. SaS, 56, 1995, s. 119–140.

ČERMÁK, F.: Czech National Corpus: A case in many contexts. International Journal of Corpus Linguistics, 2 (2), 1997, p. 181–197.

ČERMÁK, F. – KRÁLÍK, J. – KUČERA, K.: Recepce současné češtiny a reprezentativnost korpusu. SaS, 58, 1997, s. 117–124.

ŠULC, M.: Korpusová lingvistika, první vstup. Karolinum, Praha 1999.

ŠULC, M.: Tematická reprezentativnost korpusů. SaS, 62, 2001, s. 53–61.

Ústav pro jazyk český AV ČR
Letenská 4, Praha 1

Slovo a slovesnost, ročník 62 (2001), číslo 1, s. 38-53

Předchozí Karel Podrazil: Syntetizující přístup ke genealogické klasifikaci jazyků

Následující Michal Šulc: Tematická reprezentativnost korpusů