Časopis Slovo a slovesnost
en cz

Komputační korpusy a empirická gramatika

František Štícha

[Články]

(pdf)

Computational corpora and empirical grammar

I. Empirickou gramatiku (srov. Štícha, 1994) lze dělit na korpusovou a nekorpusovou. Korpusovou gramatikou rozumím tu výzkumnou činnost zaměřenou na soustavné studium jistých, různě rozsáhlých korpusů textů vzhledem k nějakému jevu, který je předběžně vymezen jako jistá obecná relace (resp. soubor relací). Studiem korpusu má být zjištěna úplná soustava pravidel a tendencí souvisejících s daným jevem v daném korpusu. Takto pojatá korpusová gramatika je pokud vím v dějinách jazykovědy poměrně vzácným jevem.[1]

Mnohem častěji byla dosud pěstována spíše nekorpusová gramatika „příkladová“. Závěry této gramatiky nejsou opřeny o soustavné studium nějakého uzavřeného a předem daného korpusu textů, nýbrž vycházejí z více či méně namátkou posbíraných dokladů nebo vymyšlených příkladů z takzvaného úzu. Výsledkem takovéto lingvistiky jsou dosud například prakticky všechny existující gramatiky, samozřejmě včetně velké třísvazkové Mluvnice češtiny a bohužel i nejnovější „Příruční mluvnice češtiny“ zpracované kolektivem brněnských lingvistů (viz Štícha, 1996). Z těchto lingvistických popisů se zpravidla nedozvíme, zda ten či onen jazykový prostředek je prostředkem centrálním nebo periferním, obvyklým či méně obvyklým, velmi frekventovaným či spíše vzácnějším atd. Často se dokonce stává, že jsou činěna zobecnění na základě jistých vyhraněných výskytů určitého jevu, která se při důkladnějším statistickém šetření ukážou jako nepřesná. Tyto lingvistické omyly se bohužel někdy tradují i celá desetiletí. (Např. o tom, že opisné pasívum vyjadřuje spíše stav a užívá se u sloves dokonavých, kdežto tzv. pasívum zvratné vyjadřuje děj a užívá se u sloves nedokonavých – v podobných formulacích jde o zkreslení skutečnosti, které může vést k mylným závěrům.[2])

Gramatiku korpusovou lze opět dichotomizovat: na manuální a komputační. Domnívám se, že manuální korpusová gramatika je v dnešní lingvistice zastoupena zhruba stejným dílem jako v celém uplynulém století. Jde o díl poměrně nepatrný.[3] Přitom pouze korpusové studie mohou – v závislosti na rozsahu korpusu, metodách jeho analýzy a způsobu prezentace zjištěných faktů – podat jistý důkaz o zastoupenosti jevu v daném jazyce a jeho systémovém a komunikačním statusu (srov. Hajičová – Pala, 1993, s. 66–67).

[27]Nová epocha nadchází v lingvistice s budováním a využíváním počítačových korpusů,[4] a to nejen pro účely lexikografické. Jakkoli se o jejich epochálním významu pro lingvistiku již vícekrát psalo (např. Svartvik, 1992; Čermák – Králík – Pala, 1992; Hajičová – Pala, 1993; Čermák, 1995; Thomas – Short (ed.), 1996), korpusy se ve světě (a nyní již také u nás) dosud budují převážně pro účely lexikografické. Avšak ve světle těchto korpusů si lze jen těžko představit, jak lingvista sám nebo i s pomocí desítek či stovek studentů či jiných pomocných sil neustále znovu a znovu pročítá stovky knih a další kvanta stále týchž textů, průběžně rozšiřovaných o texty nové, kdykoli zjistí nedostatečnou prozkoumanost toho či onoho z obrovského množství pozorovatelných jevů jazyka.[5]

Zatímco lexikografie, zejména anglická, již ve využívání počítačových korpusů značně pokročila[6] – u nás o těchto věcech v posledních letech referuje především František Čermák – gramatický výzkum, pokud vím, dosud počítačové korpusy v podstatě nevzal na vědomí (s některými vzácnými výjimkami některých severských evropských zemí, lingvistiky anglofonní a několika nadšených individualit).[7]

Počítačový korpus může reprezentovat nejen jistý druh nebo některé druhy textu, například text publicistický nebo text umělecké literatury, nýbrž i – při jisté velikosti a žánrově-stylovém složení – také jazyk jako abstraktní fenomén opakujících se vyjadřovacích struktur. Nepůjde tedy o úplnost jazykových jednotek, slov, frazémů, či jednotek lexikálně-syntaktických (určitých vazeb určitých lexémů, např. záviset na/od), nýbrž především o úplnost struktur syntaktických (včetně jevů přesahujících hranice věty a jevů slovosledných).

Velký počítačový korpus národního jazyka je třeba budovat a chápat jako reprezentativní soubor textů, který obsahuje všechny centrální a většinu z periferních gramatických jevů vyskytujících se v textech a promluvách dané řeči. Pokud jde o vztah centra a periférie, empiricky formulovaný především ve fonologii a v lexikologii, domnívám se, že v oblasti syntaxe lze tento vztah odhalovat a formulovat především právě studiem počítačových korpusů.

Samozřejmě že lze sotva docílit nějaké exaktní objektivity při žánrově-stylovém sestavování korpusu. Při rozlišování žánrů centrálních a periferních bychom myslím měli respektovat nikoli především rozšířenost konzumace, popřípadě jistou komunikační agresivitu některých druhů textů, zvláště reklamy, ale spíše sociální závažnost textů a také objem jejich produkce. Tak například triviální literatura produkuje [28]jistě daleko větší objem textů než reklama, která je heslovitá, a přestože je v ní pochopitelně mnoho nápaditosti, neustále se opakuje. Velmi závažným svědectvím o mluveném jazyce jiných poloh, než je každodenní běžná komunikace v rodině, v obchodě a na ulici, by jistě byly záznamy parlamentních jednání.

Poměrně reprezentativně různorodým, i když nepříliš rozsáhlým korpusem je počítačový korpus Ústavu pro německý jazyk v Mannheimu. Obsahuje jak uměleckou literaturu, např. díla Thomase Manna, Heinricha Bölla, Günthera Grasse, Maxe Frische a několika dalších předních literárních tvůrců, tak i různé autory literatury triviální, texty novinové z řady předních deníků a časopisů, literaturu odbornou, a co je obzvláště důležité, protokoly z jednání spolkového sněmu. Vedle toho zahrnuje i množství drobnějších textů různých jiných žánrů, například texty návodové.

Využití počítačového korpusu pro výzkum jevů gramatických má své výhody i nevýhody ve srovnání s jeho využitím pro účely lexikografické. Výhody jsou spojeny s tím, že frekvence tvarů slov a zejména frekvence syntaktických struktur není patrně zdaleka tak závislá na druhu a stylu textu a na mimojazykové realitě jako frekvence slov.

Například německé kompozitum Straßenschäden se nikoli vzácně vyskytuje na cedulích u německých silnic a řidič si toto slovo, které vzal opakovaně na vědomí, do svého jazykového kódu dost pevně zaznamená. Přesto se toto slovo v mannheimském korpusu vůbec nevyskytuje a nelze je nalézt ani v žádném z největších německých výkladových slovníků. Protože jednoslovné či souslovné psané informace pro kolemjdoucí či kolemjedoucí jsou důležitou součástí naší sociální reality, měly by se i tyto „texty“ stát součástí počítačového korpusu orientovaného mimo jiné také či především na lexikografickou práci. Pro výzkumy gramatické mají jistě také svou cenu, avšak oblast jevů, které lze na těchto nápisech studovat, je silně omezená a z hlediska komplexního syntaktického systému periferní.

Nevýhody při využívání počítačového korpusu ke studiu gramatiky ve srovnání s výzkumem lexikologickým tkví v tom, že při gramatickém výzkumu je třeba hledat nikoli konkrétní slova či spojení slov, nýbrž syntaktické struktury, které je třeba nejprve abstrahovat a definovat. To sice nebývá mnohdy obtížné, avšak narazíme i na nemálo případů značné obtížnosti, ba snad i nemožnosti jistou strukturu programově definovat. Například slovosledné struktury podmíněné v daném textu specifickým rozložením informačních hodnot rozlišených na známé, neznámé, výchozí, cílové, zdůrazněné, nezdůrazněné, kontrastní, nekontrastní a podobně půjde patrně prostřednictvím počítače vyhledávat jen obtížně a neúplně, neboť pro automatické rozlišování všech zmíněných hodnot komplexně v celém velkém korpusu asi není vůbec možné sestavit nějaký algoritmus.

Využívání počítačových korpusů při lingvistické práci nemusí mít také vždy tutéž cenu. Malou cenu bude mít použití korpusu například pro potvrzení introspektivně podloženého faktu, že většina českých vět má podmět (ať explicitně vyjádřený, nebo implikovaný slovesným tvarem), nebo že nekontrastivně a neterminologicky užité adjektivní atributy jsou vzhledem k určovanému substantivu zpravidla v antepozici. Je zřejmé, že jevy, jako je přítomnost anteponovaného adjektivního atributu ve větě a mnohé jiné, mají obrovskou frekvenci výskytu, neboť se vyskytují v každé či téměř každé větě. Na druhém pólu pak stojí ty jevy, s nimiž se lze setkat třeba jednou za několik set či tisíc stránek přečteného textu. Mezi těmito póly samozřejmě [29]existuje plynulá stupnice. Navíc může frekvence daného jevu v různých typech textu a u jednotlivých autorů značně kolísat (Uhlířová, 1985; Štícha, v tisku),[8] a to i tam, kde to není vzhledem k nějaké známé vlastnosti jevu dostatečně zřejmé. (O jednom takovém frekvenčním rozdílu, který jsem zjistil excerpcí knih několika různých českých autorů, se zmíním později.)

 

II. Naznačme si nyní jen na několika příkladech, jak komputační prohledávání korpusu umožňuje podstatně zkvalitnit lingvistickou práci vycházející z empirických výzkumů:

 

1. Dejme tomu, že při studiu partikulí v textech narazíme na jev jejich kombinatoriky. Zaměříme se přitom na kombinace tří partikulí v bezprostřední posloupnosti, například tedy vlastně ani nevím. Můžeme přitom postupovat tak, že sestavíme matici všech možných trojkombinací českých partikulí a budeme zjišťovat jejich výskyt v korpusu. Můžeme přitom očekávat, že zjistíme velmi rozdílnou frekvenci těchto trojkombinací a jejich značně nerovnoměrné rozložení v různých typech textů, například rozdíl mezi jazykem psaným a mluveným, ale i mezi krásnou literaturou a publicistikou atd., a tím i rozdílný komunikační status jednotlivých kombinací. Můžeme ale také očekávat, že při jistém množství dokladů zjistíme jejich analýzou ty či ony distribuční podmínky a restrikce výskytu jednotlivých kombinací, které mohou být příčinou i důsledkem různých jiných syntaktických, sémantických, šíře komunikativních a pragmatických vlastností textu.

Dosavadní přístup empirického gramatika v podobných případech relativně málo frekventovaných speciálních jevů, k nimž nepochybně patří i trojkombinace (ale i dvojkombinace) partikulí, je téměř výhradně ten, že jev je v gramatickém kompendiu zmíněn a je uveden jeden nebo několik příkladů tohoto jevu, aniž je jakkoli postižen jeho systémový, frekvenční, stylový a komunikativní status. A je-li jev soustavně studován a popsán v monografické studii, je jeho studium většinou založeno na příležitostné, nesoustavné, často léta trvající excerpci, a jen výjimečně na soustavném studiu korpusu textů, který však sotva může konkurovat korpusu uloženému v paměti počítače.

Tvrdí-li nám moderně koncipovaná „Textgrammatik der deutschen Sprache“ (1993) H. Weinricha, že ta či ona partikule se obzvláště ráda vyskytuje v sousedství jiných partikulí, a jsou-li nám předloženy mnohé kombinace jako systémový jev, máme důvod očekávat, že nám budou také poskytnuty jisté alespoň přibližné údaje o frekvenci a rozložení v textech, popřípadě i distribučních preferencích a případných restrikcích použití. Tyto údaje však ve Weinrichově gramatice nenalézáme, neboť ani jeho gramatika není gramatikou, jejíž poznatky by byly vyvozeny ze studia korpusu a analýzy jím poskytnutých údajů. Pokud jde pouze o frekvenci a distribuci v různých druzích textu, korpus nám potřebné údaje snadno poskytne. Bez něj nám ovšem většinou nezbyde než zůstat u zmínky a několika příkladů.

Mannheimský korpus například ukazuje, že mezi jednotlivými trojkombinacemi partikulí uváděnými Weinrichem jako rovnocenné prostředky němčiny při výstavbě německého textu (neboť na nějaké rozdíly autor nepoukazuje) existují velmi značné rozdíly. Podívejme se na některé z nich.

[30]Zatímco kombinace aber doch auch (ale přece také)[9] se v korpusu vyskytuje jedenašedesátkrát v textech beletristických i publicistických, kombinace doch wohl überhaupt (přece snad vůbec) jen jednou. Kombinace aber doch wohl (ale přece snad) se vyskytuje čtrnáctkrát stejně jako kombinace denn doch auch (neboť přece také). Avšak zatímco v prvním případě je žánrová distribuce poměrně rovnoměrná, v případě druhém je devět dokladů z Thomase Manna a pět dokladů z Goetha; ani jediný tedy ze současné prózy či publicistiky, jako v případech jiných. Naopak jedna kombinace – denn doch eigentlich (vždyť přece vlastně) je doložena dvakrát, pouze ze soudobé publicistiky. Dvě kombinace jsou doloženy po jednom výskytu pouze u Thomase Manna a jedna kombinace má dva doklady rovněž pouze z Thomase Manna. Naproti tomu kombinace ja doch wohl (vždyť přece snad) je v korpusu čtyřikrát, avšak ani jednou z Thomase Manna či Goetha. Přitom Thomas Mann a Goethe jsou v korpusu zastoupeni téměř v úplnosti a doklady z jejich díla se vyskytovaly téměř u všech mnou hledaných jevů. Jde tu tedy možná o malou ukázku toho, jak počítačové korpusy, které budou postupně absorbovat nové a nové texty, se zároveň stanou nenahraditelným zdrojem poznatků o vývoji jazyka.[10]

 

2. Za druhý příklad jsem zvolil jev dosti detailní, který má však obecnější pozadí a je pro svou jednoduchost a výraznost značně ilustrativní. Jde o různé jazykové způsoby odpovědi na otázku, na kterou neznáme odpověď. Introspektivně podložený soud o způsobech takové odpovědi je následující: zatímco v češtině odpovídáme nejčastěji Nevím nebo Já nevím (s tím, že v běžné mluvě krátíme dlouhé í a vyslovujeme Nevim), v němčině čteme i slyšíme často Ich weiß es nicht s anaforickým es (Já to nevím). Začneme-li nyní pochybovat, jak je tomu v češtině s užíváním osobního zájmena a jak je tomu s užíváním anaforického to, naše introspektivní sondy se začnou brzy míjet účinkem, a nám nezbyde než pátrat v textech. Máme-li k dispozici korpus, získáme odpověď během krátké chvíle. Nemáme-li jej, můžeme přečíst mnoho set stránek textů a strávit tím velmi mnoho času a výsledky mohou být sice zajímavé, ale po mnoha stránkách nedostatečné.

Mannheimský korpus skutečně potvrdil introspektivně opřený soud: ze 113 dokladů vět obsahujících slova ich, weiß a nicht, kde po záporce bezprostředně následuje tečka, je jich 85 s anaforikem, z toho 59 s es a 26 s das. Vět bez anaforika je jen 28, tedy třikrát méně než s anaforikem.

Protože český korpus nebyl k dispozici, uchýlil jsem se k nouzovému způsobu dosavadní lingvistické práce a provedl soustavnou excerpci (trvala mi několik dnů na rozdíl od asi tak půlhodinové práce u počítače) sebraných her Václava Havla, knihy Miroslava Horníčka „Dobrý den socho“, románu Josefa Škvoreckého „Prima sezóna“ a povídkové knihy Ivana Klímy „Moje zlatá řemesla“. Ze všech těchto textů, zahrnujících román, povídky, dramata a žánrově nespecifický text Horníčkův, jsem získal 65 odpovědí obsahujících slovo nevím s hovorovou variantou nevim. Z těchto [31]65 dokladů je jich 53, tedy naprostá většina, bez anaforického zájmena. Myslím, že vybraná literární díla, sice nečetná, ale různorodá, svým poměrem 53:12 jasně ukazují na stav daného jevu v celé psané (a možná i mluvené) češtině. Odhlédneme-li tedy od značného rozdílu v čase vynaloženém na získání potřebných údajů, bylo manuálně dosaženo zdánlivě téhož efektu jako při použití počítače.

Podívejme se však, jak jsou větné formy s osobním zájmenem a bez něj, s anaforikem a bez něj rozloženy v jednotlivých dílech. Ze 38 dokladů vět bez zájmena i anaforika je jich 34 u Václava Havla a Miroslava Horníčka. U Horníčka se vyskytuje pouze odpověď Nevím, a sice jedenáctkrát. U Havla je z 27 odpovědí třiadvacetkrát Nevím. Naproti tomu z patnácti dokladů odpovědí se zájmenem je jich 14 u Škvoreckého, jedna u Klímy a ani jedna u Havla a Horníčka. Vezmeme-li nyní v úvahu velmi nestejnoměrnou distribuci sledovaných větných forem v různých textech, vidíme, že k poznání stavu v celé psané češtině by bylo zapotřebí mnohonásobně většího korpusu. A ke studiu velkých korpusů, které by potvrdily naše introspektivní soudy či ukázaly stav v případě nejistoty, nejsme bohužel zvyklí se odhodlávat, a často k tomu ani nedokážeme nebo i nemůžeme najít možnosti.

Zatímco náš manuálně zpracovaný český korpus textů čtyř knih vykazuje velmi výrazně nestejnorodé rozložení sledovaných forem, mannheimský korpus při pouze méně než dvojnásobném počtu dokladů poskytuje zcela jiný obraz. Různé formy odpovědi, tedy Ich weiß es nicht, Das weiß ich nicht a Ich weiß nicht[11] máme doloženy u Goetha, T. Manna, G. Grasse, u různých autorů triviální literatury i v publicistice.

 

3. Na jevu následujícím lze dobře sledovat, zkoumáme-li dostatečně velký korpus, dynamičnost vztahu jevů languových a jevů textových i vztah syntaxe a stylistiky. Jde o struktury „fokusující“ (rematizující) (Kiese, 1993), typu Co opravdu potřebujeme, je láska a přátelství. Smyslem těchto struktur je zdůraznit, že to, nač opravdu vztahujeme nebo bychom měli vztahovat obsah predikátu, je vyjádřeno v jeho subjektu či komplementu. Jde tedy o rematizaci predikátového objektu prostřednictvím speciální struktury; v ní je tematický predikát extrapolován do relativní věty, která je vztažena na hlavní větu s predikátovým aktantem, který je jádrem výpovědi. Jednodušeji a konkrétněji řečeno: jednoduchá věta s tematickým predikátem a rematickým aktantem (Potřebujeme lásku) je transformována v souvětnou strukturu s tematickou větou vztažnou a rematickým aktantem věty hlavní (Co potřebujeme, je láska). Nyní vzniká několik zásadních otázek, které dosavadní empirická lingvistika zpravidla principiálně pomíjela:

a) Které všechny varianty této obecně definované struktury můžeme či máme pokládat za prvky syntaktického systému češtiny?

b) Jak je tato obecně definovaná struktura zastoupena v českých textech?

c) Existují výrazné rozdíly v zastoupení a distribuci konkrétně definovaných variant této struktury?

d) Existují konkrétní struktury, které se nevyskytují ani ve velkém reprezentativním korpusu čítajícím stovky knih, stovky stránek různých zápisů a nápisů a stovky výtisků mnoha různých deníků?

[32]Je zřejmé, že na podobně kladené otázky nelze získávat odpovědi jinak než komputačním prohledáváním korpusů. Zatímco doba, kterou jednotlivec stráví hledáním dokladů sedě u komputeru, bude měřena minutami či hodinami, manuálně by tyto úkoly byly jednotlivcem nebo i celým týmem řešeny celé dny, měsíce nebo i roky. Avšak který lingvista se odhodlá k takové práci?

Budeme-li postupovat tradiční metodou introspekce, můžeme usoudit, že struktury se vztažným co, tranzitivním slovesem a jeho akuzativním objektem jsou elementem syntaktického systému češtiny a jde tedy o struktury gramatické a přijatelné. Pokročíme-li dále, můžeme znejistět: platí totéž o strukturách se vztažným komu a dativním objektem? Jsou tedy struktury typu Komu pomáhal, (to) byly děti gramatické struktury a přijatelné věty? Pokročíme-li ještě dále ke strukturám typu Kam pojedeme letos na dovolenou, (to) bude Řecko, můžeme je považovat již za nepřijatelné, a tedy i negramatické. Budeme-li ovšem všechny uvedené příklady pokládat nikoli za specifické struktury derivované z téže obecné relační báze, nýbrž pouze za různá lexikální obsazení totožné struktury, nebudeme se podobnými otázkami trápit; řekneme pak, že věta Kam půjdeme, je do kina je sice gramatická, ale neobvyklá a stylisticky nevhodná. Budeme-li však různé typy lexikálního obsazení jedné obecně definované struktury naopak pokládat za rozdílné konkrétní specifické struktury, pak jejich systémovost nebo nesystémovost musíme dokázat jejich výskytem nebo absencí v dostatečně rozsáhlém, žánrově a stylově reprezentativním korpusu. Takový korpus nemůže být jiný než korpus komputační.

Často ovšem, a to je v lingvistice dostatečně známo, závisí míra přijatelnosti vskutku pouze na rozdílném lexikálním obsazení téže specifické struktury; například můžeme mezi vztažné co a sponu je dosazovat různá tranzitivní slovesa, tedy například Co potřebujeme, je láska, Co hledáme, je štěstí, Co ztrácíme, jsou ideály atd. Také všechny tyto a podobné lexikální okolnosti je třeba zjišťovat ve velkém počítačovém korpusu. Různá míra frekvence nemusí samozřejmě ještě znamenat různou míru přijatelnosti, avšak výskyt nulový či nule se blížící bude naopak často potvrzením nepřijatelnosti jakožto subjektivního hodnocení a soudu, vyvěrajícího z řečově podložené introspekce.

Předveďme si malou ukázku toho, co dokáže v dané souvislosti rozlišit i relativně malý a ne plně reprezentativní počítačový korpus mannheimského Institutu pro německý jazyk:

was bleibt, ist – Th. Mann (1x), protokoly z jednání spolkového sněmu (1x), FA (1x), Rheinischer Merkur (2x), Stern (1x), Berliner Zeitung (1x), Zeit (2x), Mannheimer Morgen (2x)

worauf es ankommt, ist – Th. Mann (2x), A. Andersch (1x), Bollnow (eseje 1x), Mannheimer Morgen (1x)

was wir brauchen, ist – Die Zeit (3x), Mannheimer Morgen (1x), Stern (1x), Volkskammertagung (1x)

was (mir, uns, Vietnam) fehlt, ist – Th. Mannn (3x), Zeit a Mannheimer Morgen (6x)

was folgte, war – Th. Mann (1x), Mannheimer Morgen (2x)

was blieb, war – v celém korpusu 2x v Die Zeit (1985 a 1986)

worauf wier hinweisen wollten, ist dies: pouze 1x Th. Mann

 

[33]4. Vzhledem k velkému množství gramatických jevů nejfrekventovanějších, vyskytujících se v každé nebo téměř každé větě (popř. každé druhé, třetí …), patří můj poslední příklad spíše k jevům méně frekventovaným a perifernějším. Na druhé straně existuje patrně mnoho jevů ještě (daleko) méně častých. Zde se už dostáváme k otázkám poměru centra a periférie a další možné strukturovanosti obou těchto jazykových pólů, na něž bude možno seriózně hledat odpovědi teprve v komputačních korpusech. Za poslední příklad jsem zvolil jeden z relativně velmi specifických gramatických jevů angličtiny: bezprostřední spojení časové a podmínkové spojky when s minulým participiem, např. when asked. S ohledem na rozsah článku nebudu tuto gramatickou konstrukci teoreticky analyzovat a kvalifikovat, uvedu jen několik jejích dokladů:

This dish tastes even better when reheated.

Gills get a better early education when kept away from boys.

Resume walking when rested.

Justice is possible only when supported by truth.

Doklady pocházejí z birminghamského korpusu The Bank of English, který je se svými 250 milióny výskytů slovních forem největším korpusem na světě, neustále roste a koncem tisíciletí má mít rozsah jedné miliardy. V celém korpusu je 8 695 výskytů spojení when + trpné příčestí, malá část z toho nejsou ovšem konstrukce výše ilustrovaného typu, nýbrž spojení participiálního atributu a determinovaného substantiva; např. ve všech nalezených spojeních when increased jde o spojení atributu se substantivem:

In the early days when increased cattle production was being

he soon became disillusioned when increased competition in the defence

The figures came from a year when increased default and dishonesty were

AT A TIME when increased productivity is generally

increase in atmospheric co2, even when increased absorption by the sea is

so that it would not fall over when increased use of nitrogen led to

there comes a time when increased costs to promoters cannot

Frekvence uvedené konstrukce je zhruba jeden výskyt na 30 tisíc slovních forem, což je přibližně jeden výskyt na několik desítek stran knižního textu. Signifikantní je přitom fakt, že celkem 483 různých sloves se v celém korpusu vyskytuje v této konstrukci pouze jedenkrát, 187 sloves dvakrát, 101 sloves třikrát a že mnohá participia mají nulový výskyt, např.: abandoned, admired, answered, borrowed, cheated, classified, dirtied, hated, hunted, hurled, lent, loved, said, spilled, deleted, embarrassed, escaped, rented, revised, strewn, supposed, suspected (jen jako atribut), watched atd. Nejfrekventovanější je when asked (1781 výskytů), dále when compared (382), when faced (292) atd.

Vzhledem k těmto frekvenčním údajům, leckdy překvapivým, vyvstává nyní celá řada otázek o systémové zakotvenosti této konstrukce a o jejím komunikačním a stylovém statusu. Věřím, že podrobné studium distribučně textových okolností dané konstrukce umožní nalézt uspokojivé odpovědi na mnohé z vyvstalých otázek, které bychom si bez podobných korpusových šetření nikdy nepoložili.

 

[34]LITERATURA

 

ČERMÁK, F. – KRÁLÍK, J. – PALA, K.: Počítačová lexikografie a čeština. SaS, 53, 1992, s. 41–48.

ČERMÁK, F.: Jazykový korpus: Prostředek a zdroj poznání. SaS, 56, 1995, s. 119–140.

HAAS, T.: Die Plurale der Abstrakta im Französischen. Göttingen 1883.

HAJIČOVÁ, E. – PALA, K.: Ještě k Vědeckým a technickým možnostem rozvoje české lexikografie. SaS, 54, 1993, s. 64–67.

KIESE, J.: Fokussierende Sätze im Deutschen und Englischen. Peter Lang, Frankfurt am Main 1993.

SVARTVIK, J. (ed.): Directions in Corpus Linguistics. Mouton, The Hague 1992.

ŠTÍCHA, F.: K užívání opisného pasíva v současné češtině. , 73, 1990, s. 63–73.

ŠTÍCHA, F.: Čas korpusové lingvistiky. SaS, 55, 1994, s. 141–145.

ŠTÍCHA, F.: Nad novou Příruční mluvnicí češtiny. , 79, 1996, s. 252–265.

ŠTÍCHA, F.: Frekvence gramatických jevů v literárních textech (v tisku).

THOMAS, J. – SHORT, M. (ed.): Using Corpora for Language Research. Longman, London – New York 1996.

UHLÍŘOVÁ, L.: Kvantitativní charakteristiky věty jednoduché. In: M. Těšitelová a kol., Kvantitativní charakteristiky současné češtiny. Academia, Praha 1985, s. 99–125.

WEINRICH, H.: Textgrammatik der deutschen Sprache. Dudenverlag, Mannheim 1993.

 

R É S U M É

Empirische Grammatik und Komputerkorpora

Die klassische introspektive „Beispielgrammatik“ wird von dem Autor der modernen Korpuslinguistik, die große Komputerkorpora zu Forschungszwecken heranziehen kann, gegenübergestellt. Der Autor weist auf die Unzuverläßigkeit der Schlußfolgerungen der traditionellen Beispielgrammatik hin und behauptet, daß die zahlreichen Irrtümer, die manchmal jahrzehntelang nicht erkannt werden, durch die auf brüchiges, manchmal nicht authentisches Sprachmaterial gestützten Verallgemeinerungen bedingt werden.

Vier Beispiele werden angeführt, die die Gegenüberstellung von „Beispielgrammatik“ und „Korpusgrammatik“ veranschaulichen sollen: 1. Konkurrenz von Ich weiß es nicht Das weiß ich nicht Ich weiß nicht im Deutschen und Já nevím Já to nevím To já nevím im Tschechischen; 2. Kombinatorische Eigenschaften von Partikeln im Deutschen (z. B. doch wohl ja); 3. Fokussierende Ausdrücke im Tschechischen und Deutschen (Was wir brauchen, ist …); 4. when + Partizip II im Englischen in unmittelbarer Verknüpfung (when asked).


[1] Samozřejmě že v celé lingvistické literatuře všech dob jistě existuje mnoho lingvistických popisů, monografií i gramatik (spíše však z dob minulých), jejichž výklady se opírají o leckdy mimořádně bohatou jazykovou dokumentaci. Avšak tyto bohaté jazykové archívy, jež si někteří pracovití jednotlivci pořizovali (např. sbírky Šmilauerovy), nevznikaly patrně tak, že by ve velkém množstsví žánrově a stylově rozmanitých textů byl vždy soustavně hledán určitý specifický jazykový jev.

[2] Ve svém malém počítačovém korpusu (Hrabal, Kundera, Klíma, Fuks, Švandrlík, Binar aj.) jsem například u nedokonavého slovesa pronásledovat nalezl pět výskytů pasívního tvaru s trpným participiem a pouze jediný reflexívní deagentiv. Participiální pasívum se vyskytuje u stovek imperfektiv v jednoznačně dějovém významu, a naopak reflexívní deagentiv bývá často i u sloves dokonavých. Podrobněji k tomu viz v mém článku (Štícha, 1990).

[3] Jako příklad korpusově orientované práce z konce minulého století mohu uvést monografii o užívání plurálu abstraktních substantiv ve francouzštině (Haas, 1883), z doby nejnovější pak knižní studii o „fokusujících“ větách v němčině a v angličtině (Kiese, 1993).

[4] Výrazu ’počítačový korpus’ užívám v jeho nejobecnějším smyslu jako označení jakéhokoli souboru textů tak či onak uloženého na tom či onom počítačovém zdroji, který lze pomocí jakéhokoli programu prohledávat a nalézat v něm zadané výrazy. Ve speciálních pracích se počítačovým korpusem mnohdy rozumí toliko soubor textů určitým způsobem zpracovaný (Čermák, 1995).

[5] Jsou ovšem lingvisté (a zdá se, že jich v posledních desetiletích spíše přibývá), kteří se – jdouce ve stopách svého velkého vzoru, Noama Chomského – těmito problémy příliš netrápí; neboť jako tento teoretik, „zabředlý do hlubin svého materiálově nezakotveného a bezbřehého mentalismu“ (Čermák, 1995), se spoléhají spíše na „vrozenost“ a vlastní neomylnou introspekci.

[6] Zato německá s nimi téměř ještě ani nezačala: jeden z nejnovějších a nejlepších jednosvazkových výkladových slovníků němčiny Duden – Universalwörterbuch z r. 1989 je ještě zpracován klasickým „kartotéčním“ způsobem, jak je uvedeno v jeho několikařádkové předmluvě.

[7] V Ústavu pro německý jazyk v Mannheimu například v současné době redakčně dokončují velkou gramatiku němčiny rozvrženou do dvou tisícistránkových svazků. A přestože ústav v r. 1994 disponoval vlastním korpusem o 27 miliónech slovních forem a zajímavým vyhledávacím programem, byl tento korpus při přípravě mluvnice využit nikoli pro výzkumné účely, nýbrž jen jako zdroj příkladů na teoreticky zpracovávané jevy.

[8] Pro zajímavost uvádím, že v celé jedné knize projevů Václava Havla, kterou mám ve svém počítačovém minikorpusu, se ani jednou nevyskytuje spojka nýbrž.

[9] České překlady nejsou vždy plně ekvivalentní.

[10] Je samozřejmé, že v reprezentativním korpusu nemůže zastupovat vývojové období několika desítek let pouze jediný spisovatel, byť by to byl Thomas Mann či kdokoli jiný. Goethe a Th. Mann byli do mannheimského korpusu začleněni proto, že tyto subkorpusy byly ústavu poskytnuty a nemají v něm pochopitelně představovat minulé stavy němčiny. Na druhé straně najdeme-li nějaký jev u Goetha i u Th. Manna, ale nikoli v literatuře pozdější, anebo naopak, může to být pro nás signál předpokládat vývojovou změnu v době po Th. Mannovi a impuls snažit se tento předpoklad ověřit studiem dalších textů.

[11] V hovorové němčině se vyskytuje také inverzní tvar Weiß ich nicht. Ten jsem však v korpusu nehledal.

Slovo a slovesnost, ročník 58 (1997), číslo 1, s. 26-34

Předchozí František Čermák, Petr Sgall: Výzkum mluvené češtiny: jeho situace a potřeby

Následující Jan Kořenský: O hodnotách pražského funkcionalismu, jazykové kultury a o češtině včera a dnes nekonvenčně