Časopis Slovo a slovesnost
en cz

Jazykový korpus: Prostředek a zdroj poznání

František Čermák

[Rozhledy]

(pdf)

Linguistic corpus: means and source of cognition

1. Pojem jazykového korpusu

Jazykovým korpusem lze rozumět vnitřně strukturovaný, unifikovaný a obvykle i oindexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovávaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž pak je také považován za reprezentativní. Existence a smysl tvorby korpusu vycházejí především ze dvou základních teoretických předpokladů a jazykových faktů zároveň:

(1) data nejrůznějšího druhu se v korpusu nacházejí ve své přirozené kontextové podobě užití, což umožňuje jejich všestranné a objektivní studium a indukci závěrů;

(2) velký rozsah plánovitě vybudovaného korpusu minimalizuje to, že čistou náhodou – k níž u malých rozsahů dat dochází – převládnou zvláštní a okrajová užití jazykových jednotek nad základními a typickými; minimalizuje se tak však i problematická indukce opřená o nedostatečnou analogii.

Vedle primárně sledované reprezentativnosti (viz 4.) korpusu v různém smyslu a míře (včetně škály typický-zvláštní/výjimečný) se u tvorby korpusu též obvykle zdůrazňuje i nutnost v něm zachytit variabilitu (viz 4., 5.) jazyka v různém smyslu, obojí výhodně i v kvantifikované podobě.

Někdy se ve stejném smyslu zjednodušeně také mluví o komputerovém korpusu, pojímaném prostě jako velký soubor počítačově čitelných textů, ale to může zavádět (srov. pojem archivu v 3.). Žádný komputerový korpus není jen prostým, a tedy třeba i náhodným souborem textů, a vždy tedy jde o korpus jazykový ve smyslu uvedeném výše (srov. mj. Aijmer et al., 1991; Bergenholtz et al., 1979; Johansson et al., 1986; Sinclair, 1991; Souter et al., 1993; Svartvik, 1992a).

Možnost správy hromadných jazykových dat a práce s nimi na počítači vedou ve svých důsledcích nejen k nesmírnému zrychlení a usnadnění lingvistovy práce, ale i k jejímu dotud nevídanému zkvalitnění. Data takto získaná, která lze průběžně snadno modernizovat a doplňovat, tak představují dnes absolutně nejbohatší a nejrealističtější zdroj poznání jazyka vůbec. Možnostmi kvalitativními i kvantitativními tento zdroj vysoko předčí všechny lingvistovy pracně budované kartotéky a archivy minulosti a nabízí se tak proti dosavadní a tradiční individuální lingvistově introspekci a elicitaci informace od rodilých mluvčích. Proto také je jazykový korpus předpokladem ke skutečné revoluci v práci s jazykem a i proto se zcela právem o posledním desetiletí tohoto století mluví také jako o dekádě korpusové lingvistiky.

Mluví-li se v přírodních a dalších vědách zcela samozřejmě o základním výzkumu, na který navazuje veškerý další výzkum a aplikace, pak v jazykovědě se právě takovým zdrojem a předpokladem základního výzkumu stává elektronický [120]korpus. Docenění jeho prvotního významu vede pak i k pochopení toho, že jeho budoucí studium a široké využívání znamená skutečně novou epochu v lingvistice, nový způsob výzkumu jak co do kvality a povahy dosahovaných výsledků (zahrnující do značné míry poprvé i ve vědě obecně nutnou možnost verifikace, srov. Svartvik, 1992a; Čermák, 1993), tak ovšem i podoby a povahy metodologie práce s ním; své důsledky bude mít i pro filozofii přístupu k jazyku vůbec. Už na samotném začátku tu těsně spolupracují lingvisté s matematiky a odborníky v komputerové vědě a nové problémy a cíle, které se vynořují v průběhu práce, si vyžadují a budou vyžadovat zcela nové způsoby řešení a exaktnější metodologie, užité techniky a nástroje. Rostoucí význam tu nabývá lingvistické modelování a statistické metody, propojované do probabilitních modelů, ale i „fuzzy“ logika apod. Lingvistika se právě až v této fázi stává i prakticky plně interdisciplinární a není pochyb o tom, že k dosavadním disciplínám, které tu spolupracují, brzy přistoupí i další, jako je psycholingvistika, sociolingvistika a neurolingvistika.

První významné zužitkování neocenitelného a bezprecedentního bohatství informací uložených v korpusu se už promítlo do řady kvalitativně zcela nových slovníků některých jazyků (srov. mj. Atkins, 1993), není však zdaleka jediné a do budoucnosti lze při využívání korpusových dat předpokládat významnou a plodnou spolupráci mezi jazykovědou a všemi obory, které tak či onak s jazykem pracují (a to jsou téměř všechny), protože jazyk je nástrojem komunikace všech a jeho poznání a její zkvalitnění je také v zájmu všech; není v této perspektivě proto žádnou náhodou, že např. Britský národní korpus sponzoruje britské ministerstvo průmyslu. Jazyk je však také odrazem kolektivního vědomí a kultury národa, resp. komunity jeho nositelů a v tomto ohledu jeho hlubší poznání může v lecčem přispět i oborům uměleckým, zvláště však literatuře.

Na krátké historii korpusu (Aarts et al., 1990; Leech, 1991) je dobře vidět, jak může být těžké být doma prorokem a jak i takoví lingvisté jako N. Chomsky (srov. Leech, 1991), dnes zabředlý do hlubin svého materiálově nezakotveného a bezbřehého mentalismu, nemusejí potřebu budoucnosti dobře odhadnout. Už v r. 1962 se s despektem vyjadřuje o jakékoli možnosti přínosu korpusu rozvoji jazykovědy a poznání jazyka (mluví o jeho pokřivenosti); tento jeho pohled snad mohl být v té době ovlivněn tehdejším relativně nízkým stupněm rozvoje počítačů, ale zdá se, že ho neopouští ani v době současné, protože se sám dosud o studium jazyka na dnes už nepřeberné materiálové nabídce dat nepokusil. Ve stejné době výrazného nástupu generativní gramatiky se naopak jiní spíše potichu a skromně pouštějí do prvních pokusů o korpusový přístup ke studiu jazyka, protože si uvědomují, nakolik je dosavadní poznání a teoretizování mezerovité a mnohdy i podložené nedostatečnými daty; za skutečné pionýry tu lze považovat kolem r. 1960 R. Quirka v Londýně s jeho Survey of English Usage (z něhož mj. vyrostla dodnes zřejmě nejobjektivnější i největší mluvnice angličtiny) a Čecha H. Kučeru spolu s Američanem N. Francisem, kteří vytvářejí první elektronický korpus angličtiny (Brown Corpus, Kučera – Francis, 1967), dodnes ceněný a široce známý, který se považuje v dané oblasti za klasický počin.

Na rozdíl od dílčích nebo příležitostných užití korpusu jako zdroje dat pro určitý účel, rešerši či např. slovníkovou aplikaci, kdy se ke korpusu můžou obracet jak [121]nejrůznější části lingvistiky vlastní, tak vědy a obory další, je však korpus i centrálním a trvalým objektem celé zvláštní disciplíny. Korpusová lingvistika je ta část lingvistiky, která systematicky pracuje s korpusem a jeho nástroji, resp. studuje zásady a praxi práce s ním s cílem lepšího poznání funkce a struktury jazyka, jaké až dosud nebylo možné (srov. Aarts et al., 1990; Aijmer et al., 1991; Butler, 1985, 1992; Karlsson, 1992; Leech, 1991; Meijs, 1987; terminologii oboru srov. mj. v Grishman, 1986; Gunton, 1992; Illingworth, 1991). Je dnes nesporně hlavní složkou lingvistiky komputační, v jiném pohledu se však s ní značně překrývá (srov. mj. i Ide, 1992). Rozdíl mezi obojí lingvistikou vyvstává hlavně při zdůraznění metod (na rozdíl od zdrojů) a nástrojů: vedle aplikovaných výstupů (jako je strojový překlad) se komputační lingvistika může zaměřovat jen na teoretické řešení otázek prostřednictvím komputerových programů a technik, avšak dříve nebo později stejně přistupuje k jejich ověřování a uplatnění na korpusu.

2. Korpusová data

Je třeba lišit mezi povahou jazykových dat (data vnější a hrubá) ještě před jejich vstupem do korpusu a po jejich vstupu do něj (data vnitřní a strojově čitelná, resp. zpracovatelná), kdy nabývají především unifikovanou podobu.

Zdrojem korpusových dat (vnějších) jsou obě manifestace jazyka, psaná i mluvená, resp. psané i mluvené texty, ne však zatím ve stejné míře, protože záznam mluveného jazyka a jeho převod do počítačově čitelné podoby (vlastní magnetofonová nahrávka a následný přepis) je dosud velmi nákladný (Crowdy, 1991, 1993); s ohledem na zlepšující se možnosti počítačového rozpoznávání mluvy a jejího přímého záznamu komputerem se však situace může dramaticky změnit.

Dosavadní zdroje dat se podle dostupných prostředků člení v zásadě na tři druhy. Nejlevnější a nejsnadněji využitelná jsou data v podobě elektronické sazby textů, kterou dnes užívá už většina centrálních novin a časopisů a některá nakladatelství. Druhou možností, různě úspěšnou v souvislosti s mírou typografické náročnosti textu, je načítání textů, resp. jejich skenování do počítače pomocí scannerů; na rozdíl od snímání obrázků je nasnímání písma v jeho různorodosti a různé velikosti (jen typografických sad jsou stovky), a tedy i optické rozpoznávání znaků (OCR, Optical Character Recognition) spíše složitější a vyžaduje velmi výkonný a specializovaný software. Zvlášť složité texty, např. slovníkové, však přesto při tom vykazují mnoho chyb a vynucují si mnoho oprav (osvědčily se tu do jisté míry pouze klasický přístoj od firmy Kurzweiler (srov. Hockey, 1986), popř. i výkonný novější ProLector).

Třetí možností je konečně manuální přepisování potřebných textů do počítače písařkou (prostřednictvím některého z běžných editorů). Žádný z těchto způsobů tedy nevede k potřebným datům přímo a snadno, vždy je zapotřebí kontroly a oprav, většinou bohužel i odborných (nejjednodušší je paradoxně způsob třetí, který jazykového odborníka průběžně nepotřebuje), každý z nich však navíc vyžaduje řadu větších či menších programátorských a odborných zásahů v podobě preeditace či posteditace, různých konverzí, sjednocení aj. (viz 4., korpusová data interní), často v podobě zvláštních dalších programů. Ať už je elektronický text pořízen tím či oním způsobem (převádí se napřed většinou do neutrálního mezinárodního ASCII formátu), má pak v zásadě trvalou, neomezenou platnost a lze ho opakovaně využít při různých dalších příležitostech, což ho dělá zvlášť cenným.

[122]Doprovodnými faktory bývají i některé aspekty právní. Závažnou součástí sběru dat je jeho uvedení do souladu s copyrightem, autorskými právy patřícími vydavateli či vlastnímu autorovi. Pokud je pro účely korpusu, a tedy zpravidla jen pro účely nekomerční a výzkumné poskytnou, pak obvykle na základě právní smlouvy či úmluvy; ta může např. připouštět jen omezené přímé citace jednotlivých autorů apod. Případná pozdější komerčně využitelná aplikace pak však musí jejich dodatečnou využitelnost, jakkoliv obvykle jen nepřímou, řešit právně zvlášť. V případě mluveného korpusu je často potřeba respektovat případné přání mluvčích zachovat jejich anonymitu apod.

3. Typy korpusů a standardizace

Každý soubor textů v počítači však ještě korpusem není. Od vlastního korpusu (srov. vymezení v 1.) je třeba především lišit volné kolekce textů, popř. elektronickou knihovnu („textotéku“) a souhrnný elektronický archiv, jakým je např. známý Text Archive Oxfordské univerzity. Takovýto archiv je, podobně jako tradiční knihovna, prostou rozsáhlou sbírkou různých, většinou však literárních elektronických textů v různých formátech (Oxfordský archiv, který je dostupný a určený ke studiu, má asi tisícovku textů literárních děl v 25 jazycích v různých formátech a je tříděný hlavně podle vnější dostupnosti po síti a rozsahu textů; označkované jsou však jen některé z nich). Jiná velká podobná centra jsou např. na univerzitách v Torontu a Brigham Young.

Vlastní elektronické korpusy vykazují značnou různorodost, zčásti dnes už považovanou za nedostatek. Liší se mnoha parametry, zvl. však podle jazyka, typu textů, zaznamenané formy jazyka (proti textům mluveným je textů psaných většina), cíle a typu využití, způsobu uchovávání, formy uchovávání, popř. i doprovodného vybavení aj. Z hlediska pokrytých jazyků jde počet korpusů do desítek, v řadě z nich je však korpusů více zároveň. V Evropě je dnes už velmi málo jazyků, které nějaký korpus nemají (srov. mj. Taylor et al., 1989); už r. 1990 eviduje A. Zampolli stále rostoucí rozsah pokrytých jazyků mj. takto: např. pro francouzštinu existovalo dohromady 190 miliónů slov (Frantext), 27,5 mil. pro němčinu, 60 mil. pro holandštinu, 30 mil. pro italštinu, 12 mil. pro srbochorvatštinu aj. V Evropě a USA se ovšem zpracovávají i některé korpusy z dalších, popř. i mimoevropských jazyků (např. arménština v Leidenu (tam je ovšem i sídlo korpusu holandského, Kruyt, 1993), klasická řečtina v Irvinu aj.). Zdaleka největší pestrost i bohatství však představuje se svými více než 20 různými korpusy angličtina (srov. např. Aijmer – Altenberg, 1991, s. 315n.; Altenberg, 1991); pro účely koordinace i přehledu tu vznikla mj. i organizace ICAME (International Computer Archive of Modern English) sídlící v norském Bergenu, která některé korpusy i distribuuje. Zabývá se však především šířením obecných informací o zpracování korpusů vůbec (srov. její elektronický časopis CORPORA) a vedle zkušeností nabízí i některé nástroje. K hlavním korpusům angličtiny patří Brown Corpus (W. N. Francis a H. Kučera, americká angl., 1. mil.), LOB Corpus (=Lancaster-Oslo-Bergen, S. Johansson, K. Hofland, britská angl., 1. mil), London-Lund Corpus (mluvená angl., J. Svartvik, 0,5 mil., srov. Svartvik, 1990), Helsinki Corpus (diachronní, M. Rissanen, O. Ihalainen, M. Kytö), Cobuild Corpus (J. M. Sinclair, dnes Databank of English, 200 mil., srov. mj. Sinclair, 1987), British National Corpus (ve spolupráci oxfordské a lancasterské univerzity, nakladatelství Longman a Oxford a British Library, 100 [123]mil.), International Corpus of English (S. Greenbaum, 10 národních skupin a variet angličtiny z celého světa), Longman/Lancaster English Language Corpus (R. Quirk a G. Leech, 30 mil.), Survey of English Usage Corpus (napůl psaný a napůl mluvený, R. Quirk, S. Greenbaum, 1 mil.), Susanne Corpus (G. Sampson, 128 000 slov z Brown Corpusu i s relativně plně označkovanou syntaxí) aj.; objevily se už i na nich založené první souborné popisy (Garside et al., 1987; Johansson – Hoflund, 1989; Leech – Fligelstone, 1992). Vedle toho existuje i několik korpusů doujazyčných, popř. i vícejazyčných, např. mezi italštinou, resp. francouzštinou či dánštinou a angličtinou aj. Pro češtinu vznikl r. 1994 z iniciativy interdisciplinární skupiny Počítačového fondu češtiny a spojením sil více univerzitních pracovišť a ÚJČ AV ČR Ústav českého národního korpusu, jehož cílem je vybudovat rozsáhlý a víceúčelový korpus češtiny obecné povahy na půdě Filozofické fakulty Univerzity Karlovy.

Z hlediska typu textů se korpusy dělí především na obecné, resp. nespecifické a specializované. Existující pestrost zaměření specializovaných korpusů naznačuje jak pestrou paletu obecných možností jejich využití, tak individuální orientaci jednotlivých korpusů, které jsou zacílené např. na skotské drama, americkou povídku, dialekty, právní smlouvy a předpisy, naftařské texty, dětský jazyk, staré a první texty, jazyk novin, jazyk jednoho autora (např. korpus Thomase Manna) aj. I velké obecné korpusy můžou být složené z více složek, subkorpusů, např. jazyka psaného – mluveného, synchronního – diachronního, nespecifického – specifického (např. terminologického), obecného – nářečního apod., a to navíc ve více podobách (viz dál 4.).

Z hlediska typu uložení se korpusy dělí na ty, které existují v prosté podobě (t. j. ASCII formátu), nebo navíc v různém stupni i podobě označkované, popř. řídce i syntakticky analyzované; často existují i paralelně, obvykle však jen zčásti, i v podobě doprovodných frekvenčních slovníků a konkordancí. Vlastní formou uchování je hard disk na komputerech různého typu, často zároveň i ve verzi na magnetických páscích, disketách či optických discích.

Protože počet korpusů i jejich rozsah rychle roste, je dnes už zřejmá jak potřeba standardizace sběru a označování textů, tak možnost jejich vícenásobného, sdíleného použití (reusability, znovupoužitelnost). Tomu prvnímu je věnovaná mezinárodní iniciativa TEI (Text Encoding Initiative), sponzorovaná mj. Evropskými společenstvími a americkou vládou; TEI v několika dokumentech (zvl. Sperberg – McQueen et al., 1990, 1993; Hockey, 1991) doporučuje společný výměnný formát textů, zásad kódování nových a způsoby převodu mezi formáty existujícími. Její různé subkomise už mj. specifikovaly a doporučily i vhodné znakové sady, zásady textové analýzy v návaznosti na různé obory i kódovací metajazyk. Za ten byl pro deskriptivní rámec syntaktické analýzy zvolen SGML (Standard Generalized Markup Language, Bryan, 1988; Burnard, 1991), uznávaný od r. 1986 jako mezinárodní standard (ISO 8879). Opakovaná, obecná znovupoužitelnost textů (Hockey – Walker, 1993; Heid et al., 1992), aktuální zvl. ve světle nákladů na pořízení a přípravu elektronických textů i jejich mezinárodní výměny, vyžaduje ke své realizaci vyřešení především otázek polyfunkčnosti korpusu, jeho polyteoretičnosti (tj. nepoplatnosti jedné úzké teorii), dostupnosti, intelektuálních vlastnických [124]práv, reprezentativnosti, standardizace aj. Hlavním centrem mezinárodní inventarizace elektronických netechnických textů je od r. 1991 CETH (Center for Electronic Texts in the Humanities), situovaný na univerzitách v Rutgers a Princetonu; novým evropským střediskem se však v tomto smyslu stává i Edinburgh. Otázkám a zkušenostem práce s korpusem se věnují především dva časopisy: Literary and Linguistic Computing a Computer and the Humanities, srov. však i elektronický časopis CORPORA (viz výše).

4. Výstavba korpusu

Hlavní fáze výstavby korpusu tvoří (A) specifikace jeho projektu, tj. jeho typu především podle cíle a použitelnosti (viz zvl. zde 3.), (B) zajištění potřebného hardwaru a softwaru, (C) sběr dat a jejich označkování (viz zde 2. a dál), (D) zpracování korpusu a integrace jeho částí (textová a relační databáze, konkordance, frekvenční seznamy, lemmatizace aj.) a (E) zajištění jeho dalšího růstu a zpětných vazeb (srov. Atkins – Clear – Ostler, 1992).

Podle povahy korpusu jsou data v zásadě standardními vzorky nebo plnými texty, a to tak, aby se co nejvěrněji zachytila variabilita textů jak z hlediska jejich typů (variabilita lingvistická), tak rozsahu a složení jejich distribuce (variabilita situační). Jejich vlastní výběr se řídí podle pojetí, vymezení statistické populace, a to především kritérii (A) recepce či (B) percepce, a tedy podle toho, jak lidé jazyka užívají (recepce, tj. ve skutečnosti jazyka jen několika málo spisovatelů, novinářů apod. pro velmi široké publikum různých médií) či toho, jak jím píší a mluví (produkce, tj. jazyka velmi širokého vzorku aktivních uživatelů pro stejně široké spektrum příjemců). Protože jednostranná orientace na recepci (A) by znamenala zaměnit jazyk jen několika profesionálů, jakkoliv vlivný, za skutečně reprezentativní obraz celého spektra uživatelů, a naopak orientace na produkci (B) by sice zachytila pestrost typů textů, ale za cenu záznamu i velmi řídkých, ne-li ezoterických případů, je třeba volit pro výběr textů percepci i recepci v určité proporci. Především tímto ohledem je dána zásadní otázka řešení nezbytné reprezentativnosti korpusu a jeho dat. Druhým ohledem při stanovení povahy reprezentativnosti je to, zda zapojená kritéria určující typy sledovaných textů, tj. (C) textů jakožto produktů, jsou externí či interní (srov. též Biber, 1993). Interní kritéria jsou kritéria lingvistická (jazyková, týkají se ne/formálnosti textu, vztahu lexikon-syntax aj.), kritéria externí jsou naopak nelingvistická (nejazyková, týkají se typologie textů, tj. jejich původu, ne/připravenosti, žánru, situace, odbornosti, času aj.); žádná přímá či jednoduchá souvislost mezi oběma typy není. Avšak základní orientace primárně či výlučně jen na toto kritérium (C) by sice zachytila textové typy a registry, ne však tolik typické vzorce úzu různých sociálních skupin (srov. i Engwall, 1994).

Zjednodušený, avšak vyčerpávající obraz populace, který lze užít jako rámec pro strategii projektu korpusu, nabízí D. Biber (1993); uvažuje o sedmi hierarchizovaných situačních parametrech, použitelných hlavně pro stanovení povahy vzorku (z nichž hlavní jsou první tři):

1 primární kanál (jazyk psaný/mluvený/transkribovaný)

2 formát (ne/publikovaný, uvnitř dál dělený)

3 scéna (institucionální/jiná veřejná/soukromá či osobní)

4 adresát

(a-pluralita: ne/vyčíslený/plurálový/individuální/já sám;

[125]

b-přítomnost, tj. čas a místo: ne/přítomný;

 

c-interaktivnost: žádná/malá/ rozsáhlá;

 

d-sdílená znalost: obecná/specializovaná/osobní)

5 adresor

(a-demografická variace: pohlaví/věk/zaměstnání aj.;

 

b-uznání poplatnosti/díků: obecné/specializované/osobní)

6 faktuálnost (faktuální/informační/střední/neurčitá/imaginární)

7 účel

(přesvědčit/bavit/povznést/informovat/instruovat/
vysvětlit/vyprávět/popisovat/zaznamenat/přiznat se/vyjádřit postoj, názor či emoci/posílit osobní vztah aj.).

       

Z hlediska zastoupení různých jazykových prvků, jevů a forem podle D. Bibera platí tyto souvislosti:

1 Běžné lineární jazykové jevy mají velmi stálou distribuci a lze je získat spolehlivě i z relativně krátkých segmentů textu (často už o 1000 slovech).

2 Řídké lingvistické jevy mají velkou distribuční variabilitu a vyžadují delší vzorky.

3 Jevy s distribucí probability po křivce, tj. různé typy jevů (např. kumulativnost slovních druhů) jsou relativně stálé v různých segmentech textů, ale výskyt nových typů postupně klesá. Naopak frekvence nových typů je ve vzorcích z různých textů vyšší než v textu jediném (což je důvod pro stratifikované vzorky, tj. z různých vrstev definované populace).

Skutečné řešení reprezentativnosti velkých současných korpusů je ovšem různé, často z nedostupnosti některých objektivních kritérií. Takto např. Britský národní korpus ji chápe poměrně široce a zdůrazňuje zaměření na typické a centrální jevy (o typičnosti viz zvl. Hanks, 1988). Svou metodologii opírá o základní dělení textů na informativní a imaginativní (1–8 a 9–10 dole, v poměru 60:40 %), které dále dělí podle tématu na těchto deset superoblastí:

1 přírodní a čisté vědy (6 %)

2 aplikované vědy (4,3 %)

3 společenské vědy (14,1 %)

4 světové záležitosti (10,1 %)

5 obchod a finance (4,4 %)

6 umění (7,9 %)

7 víra a myšlení (4,7 %, tj. jak např. náboženství, tak filozofie),

8 volný čas (5,7 %)

9 umělecká próza (40 %)

10 poezie-drama-humor (2,3 %).

Naproti tomu dánský korpus (Norling – Christensen, 1992) vychází z kombinací tří základních kritérií či parametrů textů (jejichž zdrojem byly z celé třetiny jen noviny a z druhé knihy): obecný – odborný (91:9 %), psaný – mluvený (84:16 %) a recepce – produkce (88,8:11,2 %), a to v těchto proporcích:

1 obecný-psaný-recepce (71 %)

2 obecný-psaný-produkce (3,9 %)

3 obecný-mluvený-recepce (9,8 %)

4 obecný-mluvený-produkce (6,8 %)

5 odborný-psaný-recepce (7,7 %)

6 odborný-psaný-produkce (0,15 %)

[126]7 odborný-mluvený-recepce (0,32 %)

8 odborný-mluvený-produkce (0,14 %).

Korpusová data (vnitřní), získaná z vnějších (viz 2.), musejí ještě před tím, než je lze použít, projít aspoň dvěma přípravnými fázemi, (1) čištěním a (2) standardizací, resp. unifikací (ne nutně v tomto pořadí). V první fázi jsou zbavena speciálních znaků editorů či jiných programů (zvl. sázecích), v nichž vznikla či kterými naposledy prošla; můžou však být podle potřeby zbavována i textových obrázků a grafiky, překlepů, tiskových chyb apod. Ve druhé fázi se převádějí do zvoleného jednotného formátu (zvl. mezinárodního ASCII). Často však musejí data projít ještě třetí přípravnou fází, spočívající, podle záměru a potřeby, v jejich případném scelování do větších celků apod.

Nedílnou součástí této přípravné fáze zpracování jazykových dat v komputeru je jejich doprovodná archivní anotace, a to jak vnější, v podobě písemného záznamu do seznamů textů, tak vnitřní. Vnitřní anotace zachycuje, obecně řečeno, demografické aspekty textu a řídí se dnes při tom zpravidla mezinárodními standardy TEI (viz výše, srov. obecně Atkins – Clear – Ostler, 1992 a Čermák, 1995).

Takto pak přístupná a strojově čitelná vnitřní data v samotném počítači jsou takového druhu a povahy, jakou jim tvůrci korpusu v závislosti na zamýšleném cíli tvorby a využití korpusu dodají. Jakkoli je to taky možné, prakticky žádný korpus dnes nedává k dispozici jen data v podobě prostých lineárních textových řetězců; jejich využití by bylo omezené jen na studium poměrně zdlouhavě vyhledávaných jednotlivých tvarů slov a jejich sousedství. V souladu s potřebou poznat skrze textové výskyty obecnější vlastnosti jazykového systému se textovým datům tudíž dodávají na škále delinearizace různě složité a často i korelované indexy, které ji různě silně ruší. Touto delinearizací, resp. zachycením a značkováním, taggováním (angl. tagging) zvolených aspektů tohoto procesu lze tedy obecně rozumět zpětný převod lineární konkrétnější, resp. individuální syntagmatické stránky a manifestace jazyka do obecné výchozí a v různém stupni abstraktní paradigmatické stránky a podoby. Stupňů takového značkování tedy může obecně být tolik, kolik je potřeba a kolik lze komputerově (programově) úspěšně zavést a uplatnit (ve vztahu ke konkordanci srov. mj. Warrick et al., 1990); zdaleka však nepokrývá všechno, co by lingvista rád měl k dispozici.

Nejsilněji syntagmatickou povahu, relativně nejbližší prosté textové podobě nepřipraveného textu, mají konkordance, tj. obvykle různě velké dílčí seznamy slovních forem v jejich přirozeném (co do rozsahu volitelném) kontextu, často s dodatečnou informací o místě výskytu v původním textu, frekvenci výskytu apod. (srov. např. Burton, 1982). Hlavní výhodou konkordance, užívané obvykle v běžném standardu KWIC (Key Word in Context), je možnost studia slova (popř. jen jeho části), resp. všech jeho forem vedle sebe (obvykle se řadí abecedně), jejich kontextů, a tím také různě pevných a habituálních kolokací, obecněji pak kolokability (spojitelnosti) slova, resp. jeho formy a valence. Je to primární nástroj např. pro lexikografa, kterému nahrazuje kartotékovou dokumentaci výskytů, protože ten svou práci musí vždy začínat, především kvůli studiu významu slova a jeho odstínů, od úhrnu kontextů studované jednotky. Protože však jde u konkordance (podle zadání) o mechanické seřazení vždy stejně velkých úseků textu s daným výskytem každého [127]slova (lze ovšem zadat i jejich určitá omezení a vynechávky), je jednak konkordance mnohonásobně větší než původní text a jednak nemusí vedle sebe uvádět všechny flektivní tvary slova, které k sobě patří, protože mezi nimi abecedně můžou figurovat slova jiná, která sem čistě abecedně taky patří (srovnej ukázku v příloze).

Pro běžnou lingvistickou práci se tu nejvíce a hojně osvědčil v prostředí DOS komerčně šířený oxfordský program Micro-OCP, obsahující vedle vlastní konkordance řadu dalších nástrojů, popř. WordCruncher z Brigham Young University nebo KAYE od G. Kaye, vyvinutý pro firmu IBM, v prostředí MacIntoshe pak zvláště úspěšný Conc, který je volně šiřitelný (mj. prostřednictvím Consortium for Lexical Research v Novém Mexiku). Pro velké počítače (mainframe, ale i Unixovské pracovní stanice) byl vyvinut OCP (Oxford Concordance Programme), jímž byl zpracován velký oxfordský slovník a z něhož byl pro potřeby PC pak vytvořen i zmíněný Micro-OCP. Pro svůj velký rozsah může být do formy konkordance převedena též jen určitá část jazykových dat korpusu, a to v zásadě buď účelově (se zadáním omezeného a dobře vymezeného cíle, popř. i možné selekce, např. při tvorbě slovníků), nebo obecně jako omezené referenční jádro korpusu pro základní (stručné) ověřování hlavních dat a jejich rysů.

Full-textová databáze (též jen textová databáze) leží v podstatě kdesi na půl cestě mezi syntagmatickou lineární podobou řetězců textových výskytů a jejich paradigmatickou podobou v jazykovém systému. Tuto její přechodnou povahu zabezpečuje kombinace lineární textové podoby korpusu a přidaného značkování (viz i výše), které k lineárním tvarům přiřazuje jejich kategorie, a tedy i paradigmatické třídy; míra, podoba a forma těchto značek může být ovšem velmi různá. Práce s takovouto podobou korpusu, která je dnes obvykle i podobou pro celý korpus základní a nejúplnější, umožňuje díky speciálnímu uložení pomocí zvláštních indexů rychlé vyhledávání a vyvolávání (angl. data retrieval) zadaných potřebných dat v celém korpusu; lze tu výhodně vyhledávat i kombinace slovních tvarů oddělené i větším počtem jiných slov, jejich souhrnný výpis, statistiky apod. Pro prostředí DOS je nejznámější zmíněný WordCruncher, popř. různé další komerční nelingvistické full-textové programy; v prostředí UNIX je zdaleka nejrozšířenější program PAT (srov. např. Salminen et al., 1992).

Plnou korelaci se systémem a jeho kategoriemi tento typ programu v žádné podobě pochopitelně neumožňuje; záleží to na vneseném značkování a to zase na kvalitě výchozí teorie, kterou odráží. Hlavní potřebou lingvisty je totiž obvykle převést textové flektivní tvary a varianty pod neutrální slovníkové reprezentace, tj. jejich lemmatizace. Lemmatizátor je tudíž takový program, který sám nebo v propojení s jiným programem (např. full-textovou databází) dokáže všechny tvary lexému svést dohromady pod společné lemma, např. nominativ či infinitiv (u českých sloves může jít o desítky až stovky tvarů k jedinému slovesu); vyvíjený český lemmatizátor může navíc k danému lexikálnímu základu, resp. kořenu dodávat i pravidelné deriváty z oblasti tvoření slov, tedy slovní čeledi. Žádný lemmatizátor však dosud není schopný lemmatizovat víceslovné tvary a jednotky, vždy se jeho možnosti omezují na diskrétní hranice tvaru jediného; zde tedy zůstává celé významné pole otevřené a dosud neřešené.

Třetí formou správy a zpracování korpusových dat je databáze, obvykle relačního typu, kde se buď užívají individuálně konstruované databázové progra[128]my, které však nedošly širšího rozšíření, anebo komerčně šířené úspěšné programy, jako je pro DOS Oracle či Fox-Pro apod. Databáze tohoto typu je strukturována a vytvořena podle potřeby, tj. podle skutečných jednotek obvykle slovníkového typu, jejich částí, hierarchie a vnitřní souvztažnosti, které jsou všechny vzájemně propojeny a lze v nich hledat podobně jako ve slovníku, ale ovšem také podle jednotlivých polí, tedy např. všechna slova/lemmata spojitelná s akuzativem, či mající ve výkladu svého významu slovo nástroj či způsob nebo barva apod. Tato nejvýrazněji paradigmatická a nejabstraktnější forma korpusu bývá jeho integrální složkou zvláště ve dvou případech: když je součástí korpusu i (obvykle velký) slovník daného jazyka, který pak může sloužit např. jako filtr pro ověřování a kontrolu dat, anebo když je takový slovník naopak jedním z cílů, o jehož dosažení výstavba korpusu usiluje. V tomto druhém případě je jako dodatečný nástroj nezbytný i lemmatizátor (o lexikální databázi srov. jm. Calzolari, 1990, 1993).

V optimální podobě jsou všechny tři formy korpusu navzájem propojeny tak, aby se data z jedné části dala spojovat s daty z části jiné, zvl. za účelem cíleného výstupu či aplikace, např. při rešerši určitého typu či tvorbě slovníku (srov. např. Calzolari – Briscoe, 1992), kdy je třeba spojovat data dřívější (např. z naskenovaného slovníku, uloženého v relační databázi) s novými (zvl. v podobě konkordance). Všechny tři formy či mody existence korpusu tudíž mj. závisejí na dobrém a rychlém vyhledávacím programu; většinou je přímo součástí základních databázových programů obou typů (viz výše), popř. i programu konkordančního.

Je pochopitelné, že – ať už v podobě textové databáze či databáze relační – jsou v korpusu přístupné ty jeho aspekty i aspekty jeho jednotek, do kterých se v podobě příslušného značkování dokázala uspokojivě promítnout ověřená a fungující lingvistická teorie, resp. její model. V tomto smyslu lze v korpusu vyznačovat relativně nejspolehlivěji jasné diskrétní jednotky formy (viz však neřešený problém víceslovnosti, ať třeba některých slovesných tvarů, nebo frazémů), a tedy jevy v zásadě morfologické v užším i širším smyslu, a z hlediska formálního tedy i jednoslovné jevy lexikální. Vedle nejběžnějšího značkování morfologického (zahrnujícího určení slovních druhů a různého počtu jejich kategorií) je však na kvalitě předchozí teorie neméně závislý návrh struktury databázového hesla, analogický v tomto smyslu značkování morfologickému. Vzhledem k nejednoznačné povaze řady aspektů je žádoucí, aby obojí značkování na sebe komplementárně navazovalo; doporučuje se dokonce, aby při značkování často existovalo i řešení paralelní, dvojí (McNaught, 1993).

Zachycení syntaktických aspektů, vztahů a útvarů záleží na úspěšnosti užitého parseru (syntaktického analyzátoru) a kritérií a množství značkování (pozoruhodný je např. přístup uplatněný v korpusu Susanne, srov. Garside, 1993). Zpravidla však je tu dosud mnoho nevyřešené nejednoznačnosti, ani se tu nepřekračují přitom hranice věty. Samozřejmou možností je ovšem i analýza fonologická (srov. Leech, 1993); ta a analýza fonetická, popř. prozodická se ovšem týká korpusu mluveného jazyka. Pro jazyk s přirozeně se vyvíjející, kodifikačně neochromenou formou, a tudíž i přirozenou variabilitou se ovšem nabízí i analýza ortografická. Každá další analýza, zvl. analýza významu a většiny oblasti funkce včetně aspektů pragmatických zůstává, přes nejrůznější pokusy o její částečné uchopení [129](Patten, 1992), mimo dosavadní možnosti; výjimkou je nabízející se možnost sémantické analýzy založené na metajazyku slovníku uloženého v databázi (Alshawi, 1989; srov. však i projekt automatické obsahové analýzy, Wilson – Rayson, 1993).

Vedle lemmatizátoru, parseru a dalších nástrojů je pro práci s korpusem, především v jeho základní podobě textové databáze, zapotřebí mít k dispozici i vhodné softwarové nástroje (jako TACT, LEXA, PAT, Corpus-Bench aj., srov. např. Hickey, 1992), které budou schopné splňovat aspoň tyto požadavky: rychlé a interaktivní ovládání, spolehlivé vyhledávání zjišťovaných forem i v různě modifikovatelných kombinacích, jejich různé statistické vyhodnocování včetně zjišťování frekvence, které v pozdější fázi umožní i statistické odlišování různých významů a jejich odstínů aj. (srov. Gale et al., 1992; Čermák, 1995; Picchi, 1994, ale i Thomson, 1989).

První zkušenosti s korpusy v různých jazycích (o Svartvikovi, ed., 1992, představujícím ovšem jen omezený záběr, referuje i Štícha, 1994) přinesly už i některé zásadní zkušenosti metodologické povahy. Jednak je zřejmé, že analýza většiny sémantické stránky jazyka (srov. mj. Atkins, 1987; Pustejovski, 1993; Introduction, 1994; Kay, 1987), která je na rozdíl od diskrétní formy (tu lze opřít programově o binární volbu typu „ano-ne“) spíše většinou kontinuální a škálové, resp. splývavé povahy (a tedy v závislosti především na volbě typu „spíše toto než to, popř. ono“), bude mít jinou povahu (M. A. K. Halliday, 1991: jazykový systém je inherentně probabilistický, jeho kontinuu s komplementárními perspektivami gramatiky a lexikonu lépe vyhovuje koncepce lexikogramatiky). Významným přístupem, založeným na předpokladu různé statistické pravděpodobnosti výskytu různých jevů formy, je vyhodnocování těchto aspektů na základě probabilistických odhadů, měření a různých indexů (o vztahu kvantitativních a kvalitativních aspektů viz mj. Itkonen, 1980, srov. i Brunet, 1986). Vždy však ke studiu této stránky bude možné přejít pouze skrze zřetelně a spolehlivě okódovanou stránku formální; jedno tu tudíž předpokládá druhé. I ve formální stránce jazykových dat lze však pozorovat, resp. předpokládat nejednoduchost a nejednoznačnost, především ve smyslu časté variabilnosti formy (srov. i dál, 5.2.). Na druhé straně se jako odraz určité skepse k síle jednotlivých jazykových teorií také doporučuje (srov. Leech, 1993), aby značkování bylo spíše jednodušší, široké a konsenzuální (viz dál) a nevycházelo z jedné konkrétní teorie, protože se později nemusí osvědčit a označkovaná data by nebyla jinak použitelná ani v přístupech dalších. Nejen v této souvislosti pak nabývají na významu stále častěji produkované frekvenční seznamy, resp. slovníky jak tvarů, tak lemmat, dílčí či obecnější, doprovázející vznik a rozvoj korpusů. Slouží mj. především jako neocenitelný referenční zdroj ve všech otázkách, kde selhává formální gramatika i intuice.

G. Leech (1993) shrnuje zkušenosti své i mnohých jiných s anotací a značkováním (taggováním) do sedmi zásad. Podle něj anotace má být

(1) eliminovatelná, tj. vždy musí být možné se vrátit k původnímu syrovému korpusu,

(2) extrahovatelná (zvl. z textové databáze) a uložitelná zvlášť,

(3) opřená o zásady přístupné, srozumitelné koncovému uživateli, a ne pouze lingvistovi,

(4) autorsky vysledovatelná ke svému tvůrci (anotátorovi),

(5) jen pohodlnou pomůckou („device of convenience“), a nemá se tedy vydávat za [130]zjevenou pravdu; uživatel má být varován a poučen, že je na něm, zda ji přijme, či ne,

(6) založená na konsenzu většiny teorií a teoreticky tedy co nejneutrálnější,

(7) ne autoritativní, ale slučitelná se standardy jinými. Toto je třeba chápat zvl. v kontextu situace, kdy většina existujících korpusů má jen jedinou značku (tag, srov. Johansson, 1991), což je spíše výhoda než nevýhoda.

Zabezpečení dalšího růstu a vývoje korpusu v následujících fázích přihlíží především k potřebě udržet korpus vyrovnaný a reprezentativní, zvl. metodami postupných, cyklických aproximací, založených stejně na potřebách jako na kladech a záporech zjištěných z analýzy materiálu už dostupného. V dalších krocích může tudíž jít jak o jeho kontrolované obohacování, tak případné vypouštění některých dat. Jednou z běžných zkušeností (srov. např. Summers, 1993), která k takové korekci vede, je např. to, že v korpusu záhy převažují slova užívaná „tvůrčím“ způsobem, a tedy jen okrajové důležitosti, a chybějí naopak ta nejobyčejnější. Důležitost má taková zpětná vazba k jeho uživatelům, která umožní týmu správců korpusu reagovat v kontaktu s nimi při další výstavbě korpusu na jejich zkušenosti, poznámky, varování apod. Nemalým korektivem i stimulem je ovšem i rostoucí mezinárodní spolupráce, standardizace a integrace jednotlivých národních korpusů do propojené sítě umožňující mj. i užitečnou výměnu a srovnávání dat.

Výše naznačené kroky a ohledy vstupují i do příprav Českého národního korpusu, projektovaného interdisciplinárním úsilím více jednotlivců a pracovišť (jakkoliv jeho naznačená mnohafázová realizace dosud vedle určitého nepochopení naráží především na zásadní finanční problémy).

5. Práce s korpusem a jeho využití

Mluví-li jeden z dokumentů Evropských společenství v r. 1991 (Commission, 1991, s. 20) o tom, že „Technologie mluvy a jazyka vyžadují rozsáhlé databázové korpusy… pro výzkum a rozvoj, účely testování a k podpoře spisovatelů a překladatelů“, a odpovídá tak na otázku Proč korpus?, pak o dva roky později člen téže komise ES DG XIII J. Soler (Soler, 1993) si už tuto otázku vůbec neklade a uvažuje spíše o způsobech jeho využití: „… rozvoj standardizovaných korpusů a metod a nástrojů jejich správy i aplikace je dlouhodobý podnik přesahující možnosti projektu individuálního. Nesmírnost úkolu, jehož má být dosaženo, i jeho náklady naznačují, že standardizované korpusy mají být budovány spoluprací skrze evropskou koordinaci národních snah, která je otevřená mezinárodním výměnám, i to, že výsledné korpusy mají být veřejné a orientované tak, aby uspokojovaly různé potřeby uživatelů“.

5.1. Lingvistické a mimolingvistické využití

Základní hrubé lišení uživatelů korpusu je pochopitelně na (A) lingvisty a (B) nelingvisty a rozpadá se dál do řady orientací a oblastí. Proti množství potřeb a specifických softwarových nástrojů, umožňujících v případě první skupiny (A) elicitovat vzorce, struktury, schémata, kombinace a jejich typy, stojí v druhém případě (B) výsledky a poznatky zpravidla jen statisticky a probabilisticky zjišťované. Přes různost korpusů lze i z hlediska cílů jejich využití rozlišit především [131]dva hlavní (Atkins – Clear – Ostler, 1992): (a) jako extenzivního zdroje dat, z něhož je možné vybírat, co je potřebné, a (b) jako prostředí pro testování, trénování a vylepšování automatizovaných (lingvistických) nástrojů různého druhu.

Lingvistické využití korpusů pochopitelně závisí na tom, s jakým cílem a v jakém rozsahu byly vybudovány; proti specificky orientovaným stojí korpus relativně obecný a vícefunkční, který však sám může být složen z různých homogenních vrstev, resp. subjazyků (McNaught, 1993) vhodných pro specifičtější cíle. Podle stupně označkování a analýzy korpusu, u které – vzhledem ke splývavé povaze dat – zkušenosti (McNaught, 1993; Leech, 1993 aj.) stále více mluví jen pro obecnou skeletonovou podobu, lze základní práci s textovým korpusem vidět v pěti fázích:

1 identifikace tvarů v textu,

2 zjištění distribuce tvarů a jejich kombinací s cílem odhalit syntaktické a sémantické třídy a jejich kombinace, včetně kombinací pevných,

3 zjištění, jak tyto sémantické třídy a jejich kombinace tvoří vyšší sémantické celky a struktury,

4 zjištění, jak se tyto vyšší struktury kombinují v základní textové jednotky,

5 zjištění, jak se zjištěné výsledky promítají/mapují do struktur jiného jazyka.

Některé, zvl. formální přístupy přistupovaly k popisu jazyka často s nevysloveným předpokladem, že je bude možné ověřit právě na tak rozsáhlém materiálu, jaký nabízí jedině korpus (u nás např. Sgall a kol., 1986; Sgall – Hajičová – Panevová, 1986), většina si jich ovšem tento předpoklad nekladla. Dnes je zřejmé, že jen skrze korpus půjde (1) – vzhledem k tomu, že tradiční popisy leccos vynechávají – poprvé v historii o možnost relativně úplného popisu jazyka, (2) o precizaci, resp. redistribuci hranic a podstaty mnohých tradičních jazykových kategorií a jevů (popř. testování dosavadních gramatik), (3) o první popis jevů, pro které dostatečná data dosud nebyla k dispozici, a v neposlední řadě (4) i o reálnou šanci objevu jevů a souvislostí zcela nových. Po propojení synchronního korpusu s diachronním (srov. např. Rissanen, 1989) lze mj. (5) získat nejen lepší představu o typech jazykové variability (srov. 5.2.), ale i o zákonitostech vývoje češtiny. Je ovšem třeba tu i vidět určité problémy, známé už dnes: vedle do značné míry otevřené otázky reprezentativnosti korpusu (k níž cesty přes vágní a překrývající se typologii textů zřejmě nevedou), popř. i jeho všestrannosti, korpus ovšem nemůže dobře obecně řešit otázku negativního dokladu, výskytu jevů; řeší ji jen ad hoc po explicitním zadání. Tuto otázku ovšem neřeší ani většina popisů dosavadních.

Obecně bude pozornost věnovaná většině těchto oblastí i specifických jevů znamenat i specifickou renesanci zájmu o statistické aspekty jazyka (Baayen, 1992; Köhler et al., 1993), a to nejen v jevech paradigmatických, ale i syntagmatických, zvláště v oblasti kolokability jazykových forem (lexémů, Church – Hanks, 1990) a jejich pravidel či norem (Church – Hanks, 1990). Jednou z hlavních metodologických otázek, kterou bude třeba tak či onak zodpovědět (srov. Leech, 1991), je to, zda bude možné budoucí analýzu jazyka na korpusu opřít už o indukované a automatizované procedury objevování (discovery procedures), či zda lingvista bude i nadále muset zůstat u své intuice a lingvistické distinkce do textu vnášet (v podstatě arbitrárně). Menší míra úspěšnosti dosavadních kognitivních přístupů [132]ukazuje spíše na nutnou interakci komputeru a člověka, která je založená na přístupech s nižší mírou výlučnosti (zvl. na gramatikách konečných stavů), doplňovaných probabilitami pro další řešení přechodů mezi stavy, kategoriemi aj. Přirozeným důsledkem takového přístupu je sebeorganizující metodologie příslušných programů, které takto učí a zdokonalují samy sebe a jedním z hlavních požadavků na ně kladených je pak i schopnost indukovat datové struktury v textech do značné míry samostatně. V jistém protikladu, ukazujícím na pestrost přístupů i možností práce s korpusem, stojí naopak pokusy o generování textů na jeho základě (Bateman – Hovy, 1992).

Přestože korpus je pro lingvisty všeho druhu obecným a základním zdrojem, popř. testovacím prostředím (viz výše), lze s ohledem na jejich primární orientaci na něj rozlišit především následující typy profesionálních uživatelů:

A lexikografové/lexikologové (zdroj informací o skutečném úzu obecně či specifických slov apod., srov. např. Atkins, 1991, 1992, 1993; Atkins – Zampolli, 1994; Boguraev et al., 1989; Calzolari, 1990; Calzolari – Picchi, 1994; Čermák – Králík – Pala, 1992; Čermák, 1995; Fillmore et al., 1994; Karlsson, 1992; Kiefer et al., 1992; Meijs, 1992),

B komputační lingvisté (zdroj zjišťovaných statistických pravděpodobností jako klíč k analýze, prostředí k aplikaci teorií a modelů jazyka, automatické získávání lexikálněsémantických znalostí, řešení vztahu gramatika – lexikon aj., srov. např. Bindi et al., 1994; Calzolari, 1990; Corpusgebaseerde Woordanalyse, 1986–1992; Hajičová, 1994; Sampson, 1993),

C teoretičtí lingvisté (zdroje vzorků jazykových jevů i prostředí ověřování svých domněnek apod., Evens 1988; Walker – Zampolli, 1994),

D úzcí specialisté (zdroj specifických informací, paralelních řešení i úzu ap. pro překladatele, terminology, dialektology aj., srov. Lewis, 1992; Meijs, 1992),

E aplikovaní lingvisté (autoritativní a typický zdroj dat, zvl. pro výuku, tvorbu jazykových pomůcek, srov. např. Last, 1992; Pennington – Stevens, v tisku).

Mimolingvistické využití korpusu se nabízí vlastně všem oblastem a disciplínám, které pracují s jazykem, a to hlavně jako referenční zdroj informací o distribuci zjišťovaného jevu. Především tu jde však o specialisty různých oborů zaměřené na obsah textů (historikové, literární kritikové, tvůrčí autoři, sociologové, psychologové, srov. Bateman – Hovy, 1992; Burrows, 1992; Hidley, 1986; Potter, 1989; Williams, 1992) či jejich formu (specialisté na média včetně např. reklamy, stejně jako právníci apod.). V řadě oblastí se však oba aspekty překrývají (právní normy), v jiných se doceňují i souvislosti, které nejsou zřejmé na první pohled (studiu korpusu z hlediska komunikace věnují pozornost např. i projekty americké armády). Silně se rozvíjejícími oblastmi specifických aplikací pro různé obory jsou nyní systémy získávání informací (information retrieval systems) a expertní systémy, strojový překlad (založený na statistických systémech a paralelních korpusech dvou/více jazyků, srov. mj. Brown, 1990; King, 1987) a zpracování mluvy včetně její syntézy. O dalších nezřejmých možnostech využití korpusů svědčí cíle některých menších korpusů (srov. zvl. Taylor – Leech – Fligelstone, 1989), pro které byly vytvořeny: výzkum školní četby, řešení otázek psycholingvistiky či zjišťování sporného autorství (srov. např. Ledger, 1994; Merriam, 1994 o autorství jednoho Shakespeara či Smith, 1987, v souvislosti s hapax).

[133]5.2. Variabilita a sémantika

Za specifický, v zásadě však velmi široký cíl studia jazyka na korpusu se často považuje studium jazykové variace, resp. variability (srov. mj. Biber, 1988; Čermák, 1993, 2.2, 2.12). Obecné možnosti z hlediska typu jazykové formy nastiňuje následující přehled; naznačeny jsou v něm i hrubé kvantitativní poměry, resp. množství dat, kterých se variace týká (S = substantivum, A = adjektivum, V = verbum, ADV = adverbium, prep = prepozice, pron = pronomen, num = numerale). Při přechodu z langue do parole, resp. od systému k textu lze v synchronním pohledu předpokládat standardní variaci, tj. více než jeden tvar následujících druhů; zpětně to naznačuje i náročnost pokrytí těchto různých druhů variability při dekódování textu, jeho lemmatizaci apod. V mluveném, řidčeji i v psaném textu se ovšem může vyskytnout i variace nestandardní (např. různé radikální kontrakce), daná osobou mluvčího, popř. i jeho neznalostí jazyka či jeho momentálního pravopisu (jehož momentální pravopisnou změnu může ignorovat) apod. Podle druhu variace je pak pro ten který z nich při jeho posuzování zároveň třeba i zjišťovat buď frekvenci prostou, či korelovanou s další aj. Jinou variabilitu, níže neuvažovanou stejně jako další její typy příznačné pouze pro jazyk mluvený, představuje variabilita nářeční.

 

Formy

Kvantitativně

A

invariabilní

všechny (tj. vůbec, n. jen

 

 

v některých projevech)

 

nebo

 

B

variabilní

 

 

1-diachronně dané (zvl. dublety)

výjimky

 

2-synchronní

většina

 

   a-pozičně (varianty prep)

málo

 

   b-nominativně (synonyma)

hlavně autosémantika, zvl. S/A

 

      ba-substituce

hlavně autosémantika, zčásti pron

 

      bb-víceslovnost

idiomy a frazémy, víceslovné termíny

 

      bc-smíšená

(a:b)

 

   c-gramaticky

 

 

      ca-částečná obměna (flexe)

S

 

 

A

 

 

V

 

 

ADV zčásti

 

 

pron

 

 

num

 

      cb-víceslovnost

V (čas/modus, popř. další)

 

 

V/S/A reflexivní

 

      cc-kontrakce

V víceslovná (2 cb)

 

      cd-smíšení aj.

?

 

Vedle studia jazykové variace formy se však stále více dostává do popředí potřeba zmapovat především hlavní oblasti a aspekty sémantiky jazyka, jejich distribuci, vzájemnou souvztažnost apod. Elementární situaci cílů tu lze zachytit např. takto:

 

[134]Významy/sémy aj.:

 

A-systém

    a-sémy/sémantické komponenty

    b-hyponymie/taxonomie/tezaurus

 

B-text

    a-rámce/scénáře/témata (typická)

    b-pragmatické funkce

 

LITERATURA

 

Poznámka: Vzhledem k relativní novosti tématu a oboru se tu i pro studijní účely uvádí poněkud širší výběr jako základní orientační zdroj.

 

AARTS, J. – MEIJS, W. (ed.): Theory and Practice in Corpus Linguistics. Amsterdam 1990.

AIJMER, K. – ALTENBERG, B. (ed.): English Corpus Linguistics. Studies in Honour of Jan Svartvik. London 1991.

ALSHAWI, H.: Analysing the dictionary definitions. In: Boguraev et al., 1989, s. 153–170.

ALTENBERG, B.: A bibliography of publications relating to English computer corpora. In: S. Johansson – A. B. Stenström (ed.), English Computer Corpora: Selected Papers and Bibliography. Boston 1991.

ATKINS, B. T. S.: Semantic ID-tags: corpus evidence for dictionary senses. In: The Uses of Large Text Databases: Proceedings of 3rd Annual Conference of the UW Centre for the New Oxford English Dictionary. Waterloo 1987.

ATKINS, B. T. S.: Corpus lexicography.: the bilingual dimension. In: Computational Lexicology and Lexicography. Vol. I. Pisa 1991, s. 43–64.

ATKINS, B. T. S.: Tools for computer-aided corpus lexicography: the Hector Project. In: Kiefer et al., 1992, s. 1–59.

ATKINS, B. T. S.: Theoretical lexicography and its relation to dictionary-making. In: W. Frawley (ed.), Dictionaries. Cleveland 1993, s. 4–39.

ATKINS, B. T. S.: Computational approaches to the lexicon: An overview. In: Atkins – Zampolli, 1994, s. 17–45.

ATKINS, B. T. S. – ZAMPOLLI A. (ed.): Computational Approaches to the Lexicon. Oxford (=5. Pisa International Summer School on Computational Lexicology and Lexicography) 1994.

ATKINS, S. – CLEAR, J. – OSTLER, N.: Corpus design criteria. LLC, Vol. 7, No. 1, 1992, s. 1–16.

BAAYEN H.: Statistical models for word frequency distributions: a linguistic evaluation. CH, 26, 1992, s. 347–363.

BAKER, M. – FRANCIS, G. – TOGNINI-BONELLI, E. (ed.): Text and Technology. In Honour of John Sinclair. Amsterdam 1993.

BATEMAN, J. A. – HOVY E. H.: Computers and text generation: principles and uses. In: Butler, 1992, s. 53–74.

BERGENHOLTZ, A. – SCHAEDER B. (ed.): Empirische Textwissenschaft: Aufbau und Auswertung von Text-Corpora. Königstein 1979.

BIBER, D.: Variation across Speech and Writing. Cambridge 1988.

BIBER, D.: A typology of English texts. Linguistics, 27, 1989, s. 3–43.

BIBER, D.: Representativeness in corpus design. LLC, 4, 1993, s. 243–257.

BINDI, R. – CALZOLARI, N. – MONACHINI, M. – PIRRELLI, V. – ZAMPOLLI, A.: Corpora [135]and computational lexica: different methodologies of lexical knowledge acquisition. LLC, 9, 1, 1994, s. 29–46.

BOGURAEV, B. – BRISCOE, T.: Computational Lexicography for Natural Language Processing. London – New York 1989.

British National Corpus. Written Corpus Design Specification, 1991 (informační materiál).

BROWN, P. F. et al.: A statistical approach to machine translation. CL, 16, 1990, s. 79–85.

BRUNET, É. (ed.): Méthodes quantitatives et informatiques dans l’étude des textes (hommage à Charles Mueller). Collogue international de CNRS. Université de Nice. Paris 1986.

BRYAN, M.: SGML: An Author’s Guide to the Standard Generalized Markup Language. Wokingham (England) – Reading, Mass. 1988.

BURNARD, L.: What is SGML and How Does in Help? TEI Document TEI ED W25. TEI fileserver tei-luicvm 1991.

BURROWS, J. F.: Computers and the study of literature. In: C. Butler, 1992, s. 167–204.

BURTON, D.: Automated concordances and word-indexes: machine decisions and editorial revisions. CH, 16, 1982, s. 195–218.

BUTLER, C. S.: Computers in Linguistics. Oxford 1985.

BUTLER, C. S. (ed.): Computers and Written Texts. Oxford 1992.

CALZOLARI, N.: Lexical databases and textual corpora: perspectives of integration for a lexical knowledge-base. In: U. Zernik (ed.), Lexical Acquisition: Using On-line Resources to Build a Lexicon. Hillsdale, New Jersey 1980.

CALZOLARI, N.: Structure and access in an automated lexicon and related issues. In: Calzolari, 1993a, s. 139–161.

CALZOLARI, N.: Detecting patterns in a lexical database. In: Calzolari, 1993a, s. 170–173.

CALZOLARI, N. (ed.): Fifth European Summer School in Logic, Language and Information Course. Computational Lexicons. Reader. Faculdade de lettras universidade de Lisboa Portugal, Lisboa 1993a.

CALZOLARI, N. – BRISCOE, T.: ACQUILEX-I and -II. Acquisition of lexical knowledge from machine-readable dictionaries and text corpora. In: Calzolari, 1993a, s. 1–17.

CALZOLARI, N. – PICCHI, E.: A lexical workstation: from textual data to structured database. In: B. Atkins – A. Zampolli, 1994, s. 439–467.

CHURCH, K. W. – HANKS, P.: Word association forms, mutual information and lexicography. CL, 1990, 16/1.

Commission of the European Communities: Language and Technology: Preliminary Consultations with Industry and User Organisations. Vol. 1 DGXIII-B, CEC. Luxembourg 1991.

Corpusgebaseerde Woordanalyse. Jaarboek 1986–1992. Vrije Universiteit Faculteit der Letteren. Vakgroep Taalkunde, Amsterdam 1992.

CROWDY, S.: Spoken Corpus Design and Transcription. 1991 (dokument) Longman Dictionaries.

CROWDY, S.: Spoken corpus design. LLC, 8, 4, 1993, s. 259–265.

CROWDY, S.: Spoken corpus transcription. LLC, 9, 1, 1994, s. 25–28.

ČERMÁK, F.: Základy lingvistické metodologie. Nástin hlavních principů na pozadí obecné teorie vědy. Praha 1993.

ČERMÁK, F.: Komputační lexikografie. In: F. Čermák – R. Blatná (ed.), Manuál lexikografie. Praha 1995.

ČERMÁK, F. – KRÁLÍK, J. – PALA, K.: Počítačová lexikografie a čeština. SaS, 53, 1992, s. 41–48.

ENGWALL, G.: Not chance but choice: criteria in corpus creation. In: B. Atkins – A. Zampolli, 1994, s. 49–82.

EVENS, W.: Relational Models of the Lexicon. Cambridge 1988.

[136]FILLMORE, C. J. – ATKINS, B. T. S.: Starting where the dictionaries stop: the challenge of corpus lexicography. In: B. Atkins – A. Zampolli (ed.), 1994.

GALE, W. A. – CHURCH, K. W. – YAROWSKY, D.: A method for disambiguating word senses in a large corpus. CH, 26, 1992, s. 415–439.

GARSIDE, R.: The large-scale production of syntactically analyzed corpora. LLC, 8, 4, 1993, s. 39–45.

GARSIDE, R. – LEECH, G. – SAMPSON, G.: A Computational Analysis of English. London 1987.

GREENBAUM, S.: The international corpus of English. ICAME Journal, 14, 1990, s. 106–108.

GRISHMAN, R.: Computational Linguistics. An Introduction. Cambridge U. P., Cambridge 1986.

GUNTON, T.: The Penguin Dictionary of Information Technology and Computer Science. Harmondsworth 1992.

HAJIČOVÁ, E.: Grammatical data in the lexicon. In: B. Atkins – A. Zampolli, 1994, s. 265–277.

HALLIDAY, M. A. K.: Corpus studies and probabilistic grammar. In: K. Aijmer et al., 1991, s. 30–43.

HANKS, P.: Typicality and meaning potential. In: M. Snell-Hornby (ed.), ZuriLEX ’86 Proceedings. Tübingen 1988, s. 37–47.

HEID, U. – HEYN, M. – CHRIST, O.: Extracting linguistic information from machine-readable versions of traditional dictionaries: a metalexicographic method and some tools. In: R. Kiefer et al., 1992, 161–174.

HICKEY, R.: Lexa. Corpus Processing Software. Vol. 1 Lexical Analysis and Information Retrieval. Vol. 2 Database and Corpus Management. Vol. 3 Utility Library. The Norwegian Computing Centre for the Humanities, Reports 57–59. Bergen 1992.

HIDLEY, G. R.: Some thoughts concerning the application of software tools in support of Old English poetic studies. LLC, 1, 1986, s. 156–162.

HOCKEY, S.: OCR: The Kurzweil data entry machine. LLC, 1, 1986, s. 63–67.

HOCKEY, S.: The ACH-ACL-ALLC Text Encoding Initiative: An Overview. TEI Document TEI J16. TEI fileserver tei-luicvm 1991.

HOCKEY, S. – WALKER, D.: Developing effective resources for research on texts: collecting texts, tagging texts, cataloguing texts, using texts, and putting texts in context. LLC, 8, 4, 1993, s. 235–242.

CHURCH, K. W. – HANKS, P.: Word association norms, mutual information, and lexicography. CL, 1990, s. 22–29.

ICAME Collection of English Language Corpora (CD–ROM), 1991 (materiál).

IDE, N.: Introduction: common methodologies in humanities, computing and computational linguistics. CH, 26, 1992, s. 327–330.

ILLINGWORTH, W. (ed.): Dictionary of Computing. Oxford 1991, 3. ed. Introduction to the Cambridge Language Survey Semantic Coding Project, 1994 (dokument).

ITKONEN, E.: Qualitative vs quantitative analysis in linguistics. In: T. Perry (ed.), Evidence and Argumentation in Linguistics. Berlin 1980.

JOHANSSON, S.: Times change, and so do corpora. In: K. Aimer et al., 1991, s. 305–314.

JOHANSSON, S. – ATWELL, E. – GARSIDE, R. – LEECH, G.: The Tagged LOB Corpus. Users’ Manual. Norwegian Computing Centre for the Humanities. Bergen 1986.

JOHANSSON, S. – HOFLAND, K.: Frequency Analysis of English Vocabulary and Grammar, 1–2. Oxford 1989.

JOHANSSON, S. – STENSTRÖM, A.-B.: English Computer Corpora: Selected Papers and Research Guide. Berlin 1991.

[137]KARLSSON, F.: Lexicography and Corpus Linguistics. Opening Address at 5th Congress of Euralex. Tampere 1992.

KAY, C. J. – CHASE, T. J. P.: Constructing a thesaurus database. LLC, 2, 1987, s. 161–163.

KAYE, G.: KAYE. The KWIC Analyser. IBM UK Scientific centre. Winchester 1989.

KIEFER, R. – KISS, G. – PAJZS, J. (ed.): Papers in Computational Lexicography COMPLEX ’92. Budapest 1992.

KING, M. (ed.): Machine Translation Today. Edinburgh 1987.

KÖHLER, R. – RIEGER, B. B.: Contributions to Quantitative Linguistics. Proceedings of the First International Conference on Quantitative Linguistics. Dordrecht 1993.

KRUYT, J. G.: Design Criteria for Corpora Construction in the Framework of a European Corpora Network. Final Report. Institute for Dutch Lexicology INL, Leiden 1993.

KUČERA, H. – FRANCIS, W. N.: Computational Analysis of Present-Day English. Providence, Rhode Island 1967.

LAST, R.: Computers and language learning: past, present – and future? In: C. Butler, 1992, s. 227–247.

LEDGER, G. – MERRIAM, T.: Shakespeare, Fletcher and the Two Noble Kinsmen. LLC, 9, 3, 1994, s. 235–248.

LEECH, G.: The state of the art in corpus linguistics. In: K. Aijmer – B. Altenberg, 1991, s. 8–29.

LEECH, G.: Corpus annotation schemes. LLC, 8, 4, 1993, s. 275–281.

LEECH, G. – FLIGELSTONE, S.: Computers and corpus analysis. In: C. Butler, 1992, s. 115–140.

LEWIS, S.: Computers and translation. In: C. Butler, 1992, s. 75–114.

McNAUGHT, J.: User needs for textual corpora in natural language processing. LLC, 8, 4, 1993, s. 227–234.

MEIJS, W. (ed.): Corpus Linguistics and Beyond. Amsterdam 1987.

MEIJS, W.: Computers and dictionaries. In: C. Butler, 1992, s. 141–166.

Micro-OCP. User Manual. Oxford 1988.

NORLING-CHRISTENSEN, O.: Preparing a text corpus. Computational tools and methods for standardizing, tagging and structuring text data. In: R. Kiefer et al., 1992, s. 251–259.

PATTEN, T.: Computers and natural language parsing. In: C. Butler, 1992, s. 29–52.

PENNINGTON, M. – STEVENS, V. (ed.): Computers in Applied Linguistics: an International Perspective. Multilingual Matters. Clevedon, Avon, v tisku.

PICCHI, E.: Statistical tools for corpus analysis: A tagger and lemmatizer for Italian. In: Euralex ’94 Proceedings. Ed. W. Martin et al. Amsterdam 1994, s. 501–510.

POTTER, E. G. (ed.): Literary Computing and Literary Criticism. Philadelphia, PA 1989.

PROCTER, P.: The Cambridge Language Survey (nedatovaný materiál).

PUSTEJOVSKI, J.: Semantics and the Lexicon. Dordrecht 1993.

RISSANEN, M.: Three problems connected with the use of diachronic corpora. Journal of ICAME, 13, 1989, s. 16–19.

SALMINEN, A. – TOMPA, F. W. M.: PAT expressions: an algebra for text search. In: R. Kiefer et al., 1992, s. 309–331.

SAMPSON, G.: Probabilistic models of analysis. In: R. Garside et al., 1987, s. 16–29.

SAMPSON, G.: The need for grammatical stocktaking. LLC, 8, 4, 1993, s. 267–273.

SGALL, P. a kol.: Úvod do syntaxe a sémantiky. Praha 1986.

SGALL, P. – HAJIČOVÁ, E. – PANEVOVÁ, J.: The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Prague – Dordrecht 1986.

[138]SINCLAIR, J. M. (ed.): Looking Up: An Account of the COBUILD Project in Lexical Computing. Glasgow 1987.

SINCLAIR, J. M.: Corpus Concordance Collocation. Oxford 1991.

SMITH, M. W. A.: Hapax legomena in prescribed positions: An investigation of recent proposals to resolve problems of authorship. LLC, 2, 3, 1987, s. 145–152.

SOLER, J.: Text corpora: meeting the challenge of information excess. LLC, 8, 4, 1993, s. 1.

SOUTER, C. – ATWELL, E. (ed.): Corpus-Based Computational Linguistics. Amsterdam 1993.

SPERBERG-McQUEEN, C. M. – BURNARD, L. (ed.): Guidelines for the Encoding and Interchange of Machine-Readable Texts, draft ver. 1.0. Association for Computational Linguistics – Association for computers and the Humanities – Association for Literary and Linguistic Computing, Chicago and Oxford 1990.

SPERBERG-McQUEEN, C. M. – BRUNARD, L. (ed.): Guidelines for the Encoding and Interchange of Machine-Readable Texts, draft ver. 3. TEI Document P3 ACH-ACL-ALLC. Chicago, Illinois and Oxford 1993.

SUMMERS, D.: Longman/Lancaster English Language Corpus. Criteria and Design (dokument) 1993.

SVARTVIK, J.: The London-Lund Corpus of Spoken English: Description and Research. Lund Studies in English, 82. Lund 1990.

SVARTVIK, J.: Lexis in English language corpora. In: Euralex ’92, Proceedings I, 1992, s. 17–31.

SVARTVIK, J. (ed.): Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82. Stockholm 4–8 August 1991. The Hague – Berlin 1992a.

ŠTÍCHA, F.: Čas korpusové lingvistiky. SaS, 55, 1994, s. 141–145.

TAYLOR, L. – LEECH, G. – FLIGELSTONE, S.: Lancaster Preliminary Survey of Machine-Readable Language Corpora (materiál) 1989.

THOMSON, N.: How to read articles which depend on statistics. LLC, 4, 1, 1989, s. 6–11.

WALKER, D. – ZAMPOLLI, A. (ed.): Automating the Lexicon. Research and Practice in a Multicultural Environment. Oxford 1994.

WARWICK, S. – HAJIČ, J. – RUSSELL, G.: Searching on tagged corpora: Linguistically motivated concordance analysis. In: Electronic Text Research. Proceedings of the Sixth Annual Conference of the Centre for the New OED. Waterloo 1990, s. 10–18.

WILLIAMS, N.: Computers and writing. In: C. Butler, 1992, s. 247–265.

WILSON, A. – RAYSON, P.: The automatic content analysis of spoken discourse: A report on work in progress. In: C. Souter – E. Atwell (ed.), 1993, s. 215–226.

WordCruncher (IndexETC, ViewETC). Text Indexing and Retrieval Software. Electronic Text Corporation. Brigham Young University, Provo 1987.

ZAMPOLLI, A.: A Survey of European corpus resources. In: SALT: Proceedings of a Workshop in Corpus Resources. London DTI/Speech and Language Technology Club, London 1990, s. 64–84.

 

Časopisy

Computational Linguistics (CL)

Computer and the Humanities (CH)

ICAME Journal. Bergen

Journal of Literary and Linguistic Computing (LLC)

Journal of Quantitative Linguistics

La Banque des mots (zvl. numéros speciaux 1988, 1989, 1990, 1991). CNRS-INaLF, Conseil international de la langue française

 

[139]PŘÍLOHA

 

Ukázka malé konkordance slov DNES, JAK a MOC z jednoho týdne novin (Lidové noviny, květen 1991), vytvořené pomocí Micro-OCP. Celý text obsahuje 20 964 textových slov (tvarů) a 8957 lemmat (slovníkových hesel) ilustrujících jejich úzus. Vedle slov/forem v zadané podobě kontextu se uvádí i místo výskytu a celkový počet (frekvence) hledaných forem, který text obsahuje.

 

 

 

dnes

 

22

159

jejichž dozvuky ještě

dnes

prolínají čas od času na stránky

205

Když jsem

dnes

otevřel Lidové noviny z 21. května

393

DALŠÍ JEDNÁNÍ O LUSTRACÍCH AŽ

DNES

O FIS: PŘERUŠENO

399

na pořad pléna má přijít až

dnes

 

448

Cena, kterou jsem

dnes

poctíván, je udělována spíš

694

žilo na chudém, ale poklidném venkově,

dnes

jich tam zbývá

804

ohrádku plnou stolků pár metrů od radnice.

Dnes

soukromá

865

se má

dnes.

Na ztracené vartě

919

Nepil, coby potrefená husa, tehdy jako

dnes,

na tuto

1022

do Bruselu, kde

dnes

podepíše Dohodu o půjčce mezi Evrop

1192

Svět českého rockového podzemí řeší

dnes

úplně jiné problémy

1245

pan Jiří Lobkowicz, 35letý rodák ze Švýcarska,

dnes

 

1268

BŘECLAV ZH Slyšíteli

dnes

o záplavách v lužním lese

1280

Bohužel se

dnes

lužní les zavlažuje jen na malém úseku

1287

regulaci Moravy a Dyje a

dnes

za tento hřích pyká. Lužní les

1629

Rozptylové podmínky budou

dnes

dobré, v severočeské pánvi

1800

 

Dnes

se prezident se svým doprovodem vrací

1907

na

dnes

večer 19.00 do Janáčkovy síně v Praze

1915

ních dějinách American film jenž bude mít

dnes

a

1987

RADKA KVAČKOVÁ TANKOVÝ PRAPOR:

DNES

SVĚTOVÁ, ZÍTRA ČS. PREMIÉRA

1989

Půjdeli

dnes

a ono půjde, neboť režii nemá stát

2368

odborná anglistická veřejnost, ho

dnes

mohou poznat i

 

 

 

jak

 

39

199

BRNO

jak

Zatím žádné z děl bavorských výtvarníků

217

kapitál. Jako Čecha mě přirozeně zajímá,

jak

se s podobnými

221

chybnými čísly.

Jak

však sám uznává, přesné údaje o škodě a

244

firma umístila investice v Československu,

jak

pan

319

ho mohl nabídnout jiným novinám. Tak

jak

 

322

rozcházejí. A

jak

je to v demokracii vlastně možné, že

403

zpravodajských prostředků.

Jak

zástupkyně předkladatelů

422

postavení FIS je nezbytná.

Jak

konstatoval federální ministr

455

fenomén moci,

jak

jsem ho zatím tak říkajíc zevnitř poznal

479

Tyto tři druhy důvodů se vždycky,

jak

jsem si všiml

503

povinnost, a dokonce jako svého druhu oběť.

Jak

tak ale

517

těmto výhodám. Je velmi zajímavé pozorovat,

jak

 

563

tramvajová jízdenka či máslo,

jak

se vaří káva, jak se řídí

563

vajová jízdenka či máslo, jak se vaří káva,

jak

se řídí

564

auto a

jak

se telefonuje. Ocitám se tedy na prahu

722

vrcholů. Naopak,

jak

působivá byla tichá ševelení, jemné

1014

smiling.

Jak

ostatní, nevím

1144

na začátku úvodu, přednášeli o tom,

jak

se v Anglii, kde Eduard

1153

popis bezvýchodné situace, k níž došlo

jak

pod vlivem hudební

1202

 

jak

už to v dnešní hudbě bývá zvykem, místo

1205

 

jak

bychom program mohli nazvat, vtiskly

1235

Mandlerovy Liberálně demokratické strany.

Jak

nám sdělil na

1347

 

jak

řekl německý ministr obrany Gerhard

1367

liberalizace. Je však třeba,

jak

pravili přítomní znalci

1370

praktické ukázce,

jak

taková záměna obsahu vypadá

1527

že počasí je lovely, i kdyby ševci padali. A

jak

jsou

1687

metropoli relativní klid.

Jak

ČTK telefonicky sdělil zástupce

1782

Na otázku LN,

jak

se cítí v roli ekonoma, do níž je v

1981

mohla využít lukrativnějším způsobem.

Jak

si pomoci tady

2036

start, mi vnukl spíše představu,

jak

Šimon a Matouš cestou

2127

bojkotovala jednání o tom,

jak

vyplnit nynější mocenské

2217

kupónové akce a s tím, co konkrétně a

jak

budeme dělat

[140]2268

Příště si probereme,

jak

budou navazovat jednotlivá

2372

Ano, poprvé to bylo před více

jak

dvaceti lety. Svaz

2403

z vás optimismus.

Jak

lze tyto dva postoje spojit

2428

Jste v Praze pouze několik dní,

jak

na Vás

2490

Je z ní patrno

jak

obrovský obchod, s ostatními zeměmi a

2632

Deník připomněl dvě různé cesty republik,

jak

se

2638

Na otázku,

jak

chtějí republiky přijít k penězů, Meri

           

 

 

 

moc

 

12

93

situaci, kdy mnohé naznačuje, že

moc

politického útlaku je

457

existenci

moc

 

469

váze, než jaký nabízí politická

moc?

Vždyť ze samé své

488

o

moc

jako takovou, ale pouze o určité obecné

516

touha po výhodách, které

moc

přináší, anebo prostě jen

519

vidět u těch z nás, kteří žádnou

moc

nikdy neměli a vždycky

594

dvojsmyslného: na jedné straně dává politická

moc

člověku

619

skvělého rodáka parafrázovat a říct

moc

k smrti

1009

tele cen z pódia, takže ti si své slávy vskutku

moc

 

1183

čteme názory obou stran, zase tak

moc

se neliší. Mimochodem

1201

Pet Shop Boys.

Moc

živé muziky jsme při něm neslyšeli,

1586

lil, co se stane, jestliže KSČ u nás převezme

moc.

Jakoby mi

 

 

 

moci

 

22

82

Básník v prostředí

moci

 

274

ovšem si to nebudou

moci

dovolit, ve vlastním

424

tické společnosti, nikoliv upevnění výkonné

moci

 

455

fenomén

moci,

jak jsem ho zatím tak říkajíc zevnitř

458

Proč vlastně lidé touží po politické

moci

a proč se této

459

 

moci

když ji mají tak neradi vzdávají

479

politické

moci

a proč se jí tak nerado vzdává, je pestrá

486

to, že se chce těšit z výhod, které z politické

moci

 

515

důvodů touhy po politické

moci,

o níž jsem hovořil, totiž

518

ďábelské je pokušení

moci

právě v této sféře. Nejlépe to lze

522

jsme se náhle sami ocitli u

moci

 

580

tického odstupu od sebe sama, aby člověk u

moci,

byť to

586

Tedy znovu: jsa u

moci,

jsem si permanentně podezřelý

588

svůj zápas s pokušeními

moci

zvolna začínají prohrávat a

599

 

moci

a ve všem, co k ní logicky patří, skrývá

826

budou

moci

v historickém centru Prahy, ale i jinde

1649

výkonné

moci

 

1769

Básník v prostředí

moci

 

1995

příští konkurence nebude

moci

upřít

2136

Steinhardt hladký nástup KSČ k totalitní

moci

v únoru 1948

2198

X…tak se budeme

moci

oslovovat již za tři čtvrtě

2206

Až začne škola, budeme si

moci

koupit kupónové knížky

 

 

 

mocí

 

3

94

pouze nahrazována

mocí

ekonomické nerovnosti. Zdůraznil

493

zdůvodňujeme svou touhu být mocní a svou

mocí

a jejím dosahem

593

V pokušení

mocí

je cosi velmi zákeřného, šálivého a

 

Slovo a slovesnost, ročník 56 (1995), číslo 2, s. 119-140

Předchozí Jana Jančáková: Dnešní stav mluvy českých reemigrantů ze Žitomirska na Ukrajině

Následující Přemysl Janota: Zdena Palková: Fonetika a fonologie češtiny