en cz

Čas korpusové lingvistiky

František Štícha

[Rozhledy]

Period of linguistics of corpora

Lingvistiku lze podle mého názoru dělit na teoretickou a empirickou. V tomto případě se klade teorie proti empirii či mimo ni a v této dimenzi viděno, teoretická lingvistika jazyk nezkoumá, nýbrž si z něj (většinou velmi střídmě) vybírá již poznané a buduje na něm svou teorii. Empirik chce naproti tomu jazyk lépe poznat v jeho obecných i specifických vlastnostech, komunikativních funkcích, zákonitostech, tendencích, normách, rozporech, protikladech, konkurencích, restrikcích atd.

Zatímco lingvistickou teorii lze úspěšně budovat a rozvíjet na bázi osvojených znalostí o jazykovém systému a o strukturách jazyka, na něž lze aplikovat různé dávky a kvality matematiky, logiky, sociologie, psychologie a filozofie, pro empirickou lingvistiku (Jespersen, Mathesius, Helbig, Apresjan, Bolinger) je jazyk především objektem poznání, nikoli zdrojem „čistých“ teoretických úvah.

[142]Co zde nazývám empirickou lingvistikou, bývá obvykle označováno jako lingvistika funkční. Je celkem známo, čím se liší tzv. teoretická lingvistika od funkční lingvistiky. Zatímco „ryzího“ teoretika zajímá např. u pasiva, jakým teoretickým konstruktem zachytit existenci tohoto jevu, funkčního lingvistu (empirika) zajímá, jak se pasiva užívá v komunikaci, jaká je jeho distribuce v textech, jaké k němu existují konkurenční prostředky, jaké jsou systémové, textové a komunikační podmínky jeho užití nebo restrikce atd.

Závažným nedostatkem tradiční empirické lingvistiky je poměrně značná nespolehlivost jejích poznatků, výkladů a soudů, pramenící zejména z programové heuristické libovůle ve vyhledávání textových a komunikačních zdrojů zkoumaných jevů, zejména vzhledem k jejich kvantitě. Tato libovůle má několikerý, zásadně rozdílný důsledek pro pozitivní vývoj v lingvistice: je to především značná nahodilost v odhalování omylů, souvisící se zaměňováním omylu pramenícího z výběru omezeného (leckdy nepatrného) množství výskytů zkoumaného jevu, s neadekvátností interpretace; je to i přespříliš spletitá, často zpět se navracející a málo progresivní cesta k získávání nových empirických fakt, a konečně je to i nahodilá šíře lingvistické reflexe jazykové reality.

Mnohé jevy výrazové konkurence v oblasti gramatiky by zasluhovaly podrobného a rozsáhlého materiálového šetření. Proč k němu dochází v lingvistice tak zřídka? Je evidentní, že naprostá většina i empiricky orientované lingvistiky se dosud spokojovala (sám sebe nevyjímám z této kritiky) s více či méně namátkou a příležitostně posbíranými doklady toho či onoho jevu. Navíc často vykládáme nějaký jev pomocí vět či konstrukcí, které jsme si vymysleli, resp. na něž jsme si vzpomněli. Takový přístup k empirickému zkoumání jazyka je ovšem do jisté míry ospravedlnitelný. Mám za to, že plně ospravedlnitelný byl tento přístup v éře před existencí počítačových korpusů a v počátcích této éry, kdy jsme se učili či se teprve učíme tyto korpusy vytvářet a s nimi zacházet, a sice tam, kde jde o jev velmi frekventovaný, k němuž lze snadno vymyslet skutečně v komunikaci použitelné věty, resp. tyto věty doložit ze své řečové zkušenosti, jak je máme uloženy v paměti. I z namátkou posbíraných vět lze mnohdy vyvodit nové poznatky o tom či onom jazykovém jevu. Všimneme-li si např. toho, že zjišťovací otázka je někdy kladná, jindy záporná, můžeme si vzpomenout na různé otázky, které se podle naší řečové zkušenosti obvykle kladou, sestavit z těchto otázek malý korpus a ten učinit objektem našich pozorování. Zjistíme přitom např., že záporná otázka je obvyklou formou vyjadřování návrhu: Nepojedeme raději vlakem? Nesedneš si? Neřekneš mu to raději sám? atd. A zjistíme ještě mnoho jiných komunikativních funkcí, vyjadřovaných obvykle formou kladnou, nebo zápornou. Jestliže jsme dospěli takto poměrně snadno k mnohým zjištěním, můžeme se právem domnívat, že manuální excerpce rozsáhlejšího korpusu textů by často přinesla sotva nebo jen o málo více než potvrzení našich pozorování, která jsme učinili na malém, náhodně sestaveném vzorku studovaného jevu. Jistá suma poznatků o určitém jevu se tak stává limitujícím faktorem badatelovy motivace k jeho dalšímu výzkumu.

Zcela jiná situace nastává a nastane s érou velkých počítačových korpusů; tyto korpusy je třeba sestavovat tak, aby obsáhly texty stovek knih beletristických i naučných, stovek nejrůznějších deníků a časopisů, tisíce stránek spisů úředních, soukromou korespondenci, filmové a televizní scénáře, reklamní a návodové texty [143]atd., včetně množství rozmanitých projevů mluvených. Výkonné počítače dokážou během několika vteřin až minut tyto obrovské korpusy prohledat a prezentovat příslušnou sumu dokladů takovým způsobem, který umožní odhalit mnohé zákonitosti vztahu jazykové formy a komunikativní funkce, jež by jinak bylo stěží možné zjistit, nebo by to bylo prakticky i nemožné. Budeme-li mít např. k dispozici program, který počítači umožní vyhledat všechny věty s otazníkem, které nezačínají slovy kdo, kdy, kde, kam, koho, komu …, co, čím …, jak, jaký …, atd., budeme mít možnost získat úplné soubory zjišťovacích otázek z celého obrovského korpusu i z jeho nejrozmanitějších dílčích složek. Takový korpus a jeho složky nám umožní nejen registrovat v jisté relativní úplnosti rozdílné a identické struktury, ale i případné stoprocentní (98 % atd.) či nulové (0,01 % atd.) výskyty v soustavě zjištěných formálně-obsahových struktur. To nám pak také umožní činit zodpovědné a podložené soudy o systémové gramatičnosti a komunikativní adekvátnosti jazykových struktur.

Korpusová statistika zaměřená ke vztahům formy a funkce v subsystémech tak či onak si konkurujících prostředků umožní též ověřovat spolehlivost lingvistovy introspekce a existujících údajů v gramatikách a jiných popisech týkajících se např. tendenčního či noremního výběru jednoho z konkurujících si prostředků. Jako příklad mohu uvést údaje o výběru nominativu nebo instrumentálu u přísudkového substantiva, jímž se ve větě podmětu přisuzuje nějaká pracovní funkce. Již asi století se traduje (až na výjimky, např. Ertl, Kopečný) a přenáší z jednoho popisu do druhého poučka o užívání instrumentálu zejména u substantiva označujícího povolání, např. Otec je učitelem. Pomocí primitivního wordperfektového vyhledávacího programu jsem ve Fuksově románu Obraz Martina Blaskowitze během hodiny a půl zjistil a zaznamenal mj. 15 vět s přísudkem tohoto typu, v nichž je ve 12 případech nominativ a pouze ve třech větách instrumentál (… jak mu vtipně namluvila Jana, jejíž muž byl prokurátor, který se tenkrát v těch létech hlavně zabýval vrahy; Jeho otec byl architekt; jeho otec byl úředník na magistrátu hlavního města Prahy; … jejíž muž byl prokurátor a odborník na vraždy; Otec byl obchodník; Pan Jakub Koubek byl hajný; pan Koubek byl hajný; jeho otec byl učitel; Víš, že pan Blaskowitz není nacistický funkcionář? Víš, že nezdraví Heil Hitler? A co … řekl Prokop, byl obchodník; Jana, chemička z ústavu pro soudní pitvu, jejíž muž byl prokurátor; Romuald byl skutečný malíř; – Jana nikdy psychologii nestudovala, byla chemičkou v ústavu pro soudní pitvu; Jednou to byl továrnický synek a ona byla myčkou nádobí v předválečném bufetu na Žižkově; Prokopův otec byl úředníkem na magistrátu hlavního města Prahy). Jak vidíme, pouze v jednom ze tří užití instrumentálu (otec byl úředníkem) jde o běžný název obvyklého povolání. Nelze pochopitelně z této drobné sondy činit obecné závěry, avšak na cosi nezanedbatelného toto zjištění ukazuje, zejména tehdy, je-li v souladu s lingvistovou introspekcí.[1] Pokud bychom 80–90% výskyt nominativu ve větách daného typu zjistili i v rozsáhlém a stylově [144]rozmanitém korpusu, bylo by to jistě překvapení pro nejednoho lingvistu (včetně autora tohoto příspěvku). Speciální vyhledávací program a výkonný počítač přitom umožní poměrně snadno a s malým časovým nákladem zjistit poměr celkového výskytu nominativu a instrumentálu přísudkového substantiva v rozsáhlém korpusu rozmanitých textů. Přitom mohou vyjít najevo netušené tendence či normy. Je samozřejmé, že tyto tendence či normy vztahu formy a funkce vyplynou nikoli z dat samých, nýbrž teprve z dedukcí lingvistových.

V r. 1991 se ve Stockholmu konala konference o korpusové lingvistice, jíž se zúčastnili i mnozí známí lingvisté, např. Ch. J. Fillmore, M. A. K. Halliday, J. Svartvik, G. Leech a J. M. Sinclair. V r. 1992 nakladatelství Mouton de Gruyter vydalo z této konference sborník (Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4–8 August 1991. Ed. by J. Svartvik). Budu citovat některé výroky účastníků sympozia.

J. Svartvik se domnívá, že lingvistická kompetence a performance jsou natolik složité, že nemohou být adekvátně popsány pouhou introspekcí a dotazováním rodilých mluvčích (elicitation). Připomíná, že verifikovatelnost je ve vědeckém výzkumu normální požadavek a je těžké pochopit, proč by lingvistika měla být vyjmuta z tohoto standardního způsobu výzkumné procedury. M. A. K. Halliday poznamenává, že měl vždy pocit, že v gramatice je příliš málo empirických údajů (dat). Pousloucháte-li gramaticky, říká, uslyšíte věty mnohem složitější než které lze nalézt v psaných textech. Korpusová statistika (frequency in the corpus) je podle Hallidaye potvrzením (instantiation) pravděpodobnosti v gramatice.

Podle G. Leeche je počítačová korpusová lingvistika zcela novým způsobem výzkumu a fakticky i novým filozofickým přístupem k jazyku. Pokud jde o pravděpodobnost, nelze, tvrdí Leech, spoléhat se na chomskyánskou intuici rodilého mluvčího. J. M. Sinclair se domnívá, že lingvistika má před sebou vzrušující roky a desetiletí, kdy začneme využívat informací načerpaných z textových korpusů. Příchod počítačů, tvrdí Sinclair, zkvalitnil v uplynulých letech mnohé vědecké obory, avšak v žádném z nich nebyl jeho účinek tak pronikavý, jaký lze očekávat (as it will be) při studiu jazyka. Lingvistiku čekají zcela nové metodologie a poměr mezi spekulací a faktem se ostře změní.

Ch. J. Fillmore je poněkud skeptičtější a připomíná, že se budeme muset vyrovnat se skutečností, že neexistuje korpus příkladů s hvězdičkou (starred examples), čímž míní, že se z korpusu nedozvíme, co je nepřijatelné (what is not possible). K tomu bych jen poznamenal, že pozitivně se to pochopitelně nedozvíme. Avšak např. nepřijatelnost určité slovesné vazby (jejíž forma je velmi často z hlediska daného přítomného stavu jazyka arbitrární) nemůže být dána ničím jiným než její neexistencí v úzu, popř. jejím relativně nepatrným a ve srovnání s velmi frekventovanou vazbou jí konkurující (např. záviset na něčem x odviset od něčeho) zanedbatelným výskytem, a tím i neexistencí systémovou; tuto neexistenci nelze právě prokázat ničím jiným než absencí v co nejrozsáhlejším a stylově nejrozmanitějším korpusu. Pochopitelně, že ne vždy lze nepřijatelnost přímo prokázat korpusovou statistikou. Je to především tam, kde jsou restrikce vázány na sémantickou náplň syntaktické konstrukce, přičemž náplň nelze exaktně definovat. Avšak právě analýzou korpusové statistiky se lépe vyjeví a leckdy patrně pouze díky ní se mohou vyjevit jisté vztahy jazykové formy a její komunikativní funkce.

[145]Velmi zajímavý a inspirativní je příspěvek S. Hellberga, který informuje o využívání počítačového korpusu při práci na gramatice švédštiny. Podle autora mnohé gramatické popisy náležejí pouze do „paper-and-pencil tradition“, zatímco deskripce založené na analýze korpusu zpravidla postihují širší spektra kategorií. „V některých případech,“ píše Hellberg, „jsme získali neočekávané poznatky, když nám nešlo o korekce našich intuicí, nýbrž pouze o ilustrativní příklady“ (s. 320). Autor rovněž popisuje několik případů, kdy „the study of the corpora led us to ajdust the description based on our intuition“ (s. 319).

Nedovedu si představit, že empirická lingvistika se v budoucnu dokáže obejít bez rozsáhlých počítačových korpusů a považovat se přitom za smysluplný obor lidské činnosti. Vidím to tak, jako by se genetika povznesla nad mikroskop nebo historie nedbala letopočtů a pramenů.

[1] Už r. 1980 jsem v článku v Naší řeči (Konkurence nominativu a instrumentálu přísudkového substantiva v současné spisovné češtině) napsal: „… stejně oprávněně tu lze užívat nominativ, např. Manželka je zubní laborantka, bratr je psycholog apod.“ (s. 194). Toto tvrzení ovšem nebylo podloženo statistickými údaji. Jestliže se ve větách jako Bratr je lékař/lékařem dalším šetřením potvrdí poměr nepříliš vzdálený poměru 12:3 zjištěnému ve zmíněném románu, bude pak více než o stejné oprávněnosti užívat nominativ pochopitelně namístě hovořit o silné tendenci až normě zvolit ve větě daného typu nominativ, nikoli instrumentál, jak se tradičně uvádí.

Slovo a slovesnost, ročník 55 (1994), číslo 2, s. 141-145

Předchozí Josef Filipec: K dialogu o české lexikografii a lexikologii, předpočítačové i počítačové

Následující Světla Čmejrková: Jan Kořenský: Komunikace a čeština

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: