Časopis Slovo a slovesnost
en cz

František Čermák – Jana Klímová – Vladimír Petkevič (red.): Studie z korpusové lingvistiky

Eva Hajičová

[Recenze]

(pdf)

František Čermák – Jana Klímová – Vladimír Petkevič (red.): Studie z korpusové lingvistiky

František Čermák – Jana Klímová – Vladimír Petkevič (red.): Studie z korpusové lingvistiky. Acta Universitatis Carolinae, Philol. 3–4. Nakladatelství Karolinum, Praha 2000. 531 s.

 

Korpusová lingvistika se v Česku dočkala první ucelené příručky, ze které mohou čerpat nejen ti, kteří mají o tento relativně nový lingvistický obor zájem, ale také (a u nás možná především) ti, kteří do tajů lingvistiky pronikli už dávno, ale ke korpusové lingvistice mají stále rezervovaný, ne-li odmítavý postoj. A je třeba hned úvodem říct, že jde o soubor velmi promyšleně koncipovaný, pečlivě uspořádaný a výborně přeložený (překladatelé ke dvěma statím doplnili i novější literaturu a na konci sborníku anglicko-český slovníček užívaných termínů; snad jedinou výhradu mám k překladu spojení „linguistic data processing“ jako „zpracování lingvistických dat“: angl. slovo „linguistic“ znamená jak „lingvistický“, tak i „jazykový“, ale v tomto spojení jde přece o data jazyková, nikoli o údaje lingvistické).

Sborník přináší překlad 22 studií převážně z anglosaské lingvistické produkce, jimž je jako úvod předeslána stať Fr. Čermáka (s. 15–37) přetištěná (a poněkud upravená) z časopisu Slovo a slovesnost z r. 1995. Ve své době to byl příspěvek průkopnický, seznamující českou lingvistickou veřejnost s novým oborem; podobné motivující úvahy se však (zcela pochopitelně) objevují v úvodních odstavcích řady dalších, přeložených a ve sborníku otištěných statí z téže doby a bylo by možná pro čtenáře a uživatele sborníku užitečnější využít prostoru pro informace doplňující a uvádějící nejnovější stav oboru, který se velmi rychle rozvíjí a s každou novou konferencí nebo publikací přináší poznatky nové.

Články jsou uspořádány velmi přehledně, v jemnějším členění do osmi oddílů, z nichž první (Korpusová lingvistika v rámci jiných oborů) přináší pohled dvou renomovaných lingvistů, G. Leeche (s. 39–56) a W. Chafea (s. 57–71), na náplň a stav korpusové lingvistiky (obě stati byly publikovány v r. 1991). Leech patří ke klasikům korpusové lingvistiky a využití korpusu při psaní gramatiky; připomeňme tu jeho spoluautorství největší gramatiky angličtiny Quirk et al. (1972), srov. i její další, někdy rozšířené, jindy naopak zhuštěné mutace. Proto není divu, že vidí „dopředu“ a zdůrazňuje důležitost anotování (značkování) korpusů, a to nejen syntakticky, ale i sémanticky a také z hlediska analýzy diskurzu (s. 42 a dále, a také v další jeho stati na s. 186 a v McNaughtově stati na s. 158 i jinde). Chafe v závěru svého článku (s. 71) zase zcela právem zdůrazňuje nutnost metodologické pružnosti při zkoumání jazyka a s tím související integrace různých technik při zpracování korpusu.

Stať B. T. S. Atkinsové a kol. (s. 75–105) ve druhém oddílu (Korpus, jeho struktura a výstavba) představuje výbornou instruktivní pomůcku pro všechny, kteří začínají budovat korpus jazykových dat. Poučná je i stať D. Bibera (s. 107–136), rozebírající otázky reprezentativnosti korpusu. Při její četbě nelze nevzpomenout na počáteční obavy některých českých lingvistů, které mohly být chápány jako odmítání podpory Českého národního korpusu (ČNK) vůbec, že výsledkem práce na ČNK bude nevyvážený soubor textů; Biber (s. 133) zdůrazňuje (podobně, jako tvrdili navrhovatelé projektu ČNK), že zásadní v návrhu korpusu je to, že parametry pro zajiště[66]ní úplné reprezentativnosti korpusu není možné stanovit hned na začátku a že práce na budování korpusu probíhá spíše cyklicky. Pro mnohé čtenáře bude možná překvapením stať M. A. K. Hallidaye (s. 137–150) a jeho vyznání, že „v paradigmatické gramatice je zapotřebí ještě vykonat ty nejzákladnější práce na pravděpodobnostním modelování systému. Ale tento přístup uspěje … tehdy, až toho napřed víc zjistíme o faktech, a to se dá udělat jen tak, že se budeme dotazovat korpusu“ (s. 150). Po přečtení této úvahy ale už nikoho nemůže překvapit ohlášené Hallidayovo spoluautorství anglické mluvnice na základě korpusu (v nakladatelství J. Benjamins, vyjde na jaře 2002). Potřebami uživatelů textových korpusů při počítačovém zpracování jazyka se ve své stati z r. 1993 zabývá J. McNaught (s. 151–165). Autor ukazuje, jaké požadavky na korpus počítačové zpracování přirozeného jazyka klade a podtrhuje velkou důležitost statistických a pravděpodobnostních metod pro tyto účely.

V úvodu této recenze jsme zdůraznili, že korpusová lingvistika je obor poměrně nový. Velmi zajímavá z tohoto hlediska je stať spoluautora prvního počítačového korpusu angličtiny, tzv. Brown Corpus, W. N. Francise (s. 169–181) z r. 1991 (vtipně nazvaná Jazykové korpusy „před naším počítačovým letopočtem“), v níž autor přesvědčivě ukazuje, že lingvisté si vytvářeli své korpusy i dříve, ale že zapojení počítačů do tohoto procesu přináší kvalitativně nové perspektivy.

Poněkud zúžený prostor je ve sborníku věnován anotování (značkování) korpusu, z dnešního hlediska nejperspektivnějšímu směru vývoje korpusové lingvistiky. Jak uvádí autor první stati tohoto oddílu G. Leech (s. 185–197), anotování korpusu znamená buď dodání informace o (lingvistické) interpretaci daných jazykových dat, nebo o reprezentaci těchto dat (v tomto druhém aspektu překladatel další stati sborníku vhodně nabízí termín „označování“ a „označovací kód“, což přesněji vyjadřuje angl. termín „markup“). Dodáním lingvistické informace se zabývá v tomto oddílu jen článek Leechův (citovaný už výše), srov. však i stati z dalších částí sborníku citované níže. Podrobnější pozornost je věnována „označování“, resp. speciálnímu, dnes všeobecně rozšířenému označovacímu kódu či metajazyku SGML (Standard Generalized Markup Language) ve stati L. Burnarda (s. 199–222) a celosvětové iniciativě TEI (Text Encoding Initiative), rovněž z pera L. Burnarda (s. 223–235). TEI je projektem podporovaným jak americkými grantovými agenturami, tak i vědeckým projektem Evropské unie, a jeho cílem je vypracovat soubor směrnic pro kódování, který by umožnil výměnu dat v počítačově čitelné podobě, a to nezávisle jak na použitém technickém a programovém vybavení jednotlivých pracovišť, tak i na konkrétní aplikaci i na jazyku nebo typu textu.

Pátý oddíl sborníku je nazván Korpusová lingvistika a její metody a přístupy a v jeho první části jsou uveřejněny dvě stati přinášející informaci o tzv. empirických či statistických metodách analýzy přirozeného jazyka. První z nich uvádí základní přehled o teorii informace a o jejím vztahu k počítačové lingvistice (T. McEnery, s. 239–277); druhá pak ukazuje, jak je možné těchto empirických metod používat v různých oblastech lingvistického výzkumu opírajícího se o velké korpusy (K. W. Church a R. L. Mercer, s. 279–305). Lingvistický pohled na práci s velkým korpusem pak přinášejí stati dalších průkopníků práce s korpusy, totiž [67]J. M. Sinclaira (o značkování korpusu a jeho nástrojích, s. 307–322) a N. Calzolariové (o využití korpusu pro tvorbu bohaté lexikální databáze, s. 325–341). Sinclair má jistě pravdu, když žádá, aby byly vyvíjeny takové metody analýzy korpusu, které dávají přednost informacím o jazyce, které lze z korpusu získat, a jistě je třeba se snažit, aby při této analýze měla co největší podíl práce počítače, tedy automatická procedura, ovšem nelze souhlasit s jeho požadavkem, aby se analýza omezila na to, co může stroj udělat bez lidské kontroly a lidských zásahů; to konečně dokládá i připojená poznámka finského počítačového lingvisty F. Karlssona (s. 322–324), autora syntaktické analýzy na základě gramatiky omezení (Constraint Grammar Parsing). Stať N. Calzolariové přesvědčivě potvrzuje, jak pokročilý je výzkum italské lexikální databáze v Centru počítačové lingvistiky v Pise a jak lze na základě podrobně zpracované počítačové lexikální databáze zkoumat hierarchické sémantické vztahy i další taxonomie.

Velmi úzký vztah k posledně uvedeným dvěma statím má i další, šestý oddíl souboru, nazvaný Analýza a vytěžování korpusu, a konec konců i oddíl sedmý, zaměřený na využití korpusu především v oblasti lexikologie a lexikografie. G. Francisová (s. 345–362) zajímavě probírá některé jevy, jak je zachycuje deskriptivní gramatika angličtiny sestavovaná na základě korpusu Bank of English; jde o gramatiku inspirovanou především pracemi J. Sinclaira a připravenou v birminghamském Cobuildu (stať je z roku 1993). Lexikálním významem a slovními asociacemi a jejich zkoumáním na základě korpusu se zabývá článek K. W. Churche a P. Hankse (s. 363–378), kteří ve svém pohledu na tyto asociace využívají pojmu vzájemné informace, převzatého z teorie informace. Nesmírně poučná a přitom poutavá je analýza anglického slovesa „risk“ ve stati C. J. Fillmora a T. S. Atkinsové (s. 381–416). (Není bez zajímavosti, že oba autoři přednášeli o svých výzkumech – podobně jako další přispěvatelé sborníku N. Calzolariová, G. Leech a P. Hanks – v mezinárodních intenzívních přednáškových cyklech Vilém Mathesius Lecture Series v Praze.) Autoři srovnávají rozsah informací podávaných v současných slovnících s bohatstvím, které lze najít v korpusech, a navrhují svou koncepci slovníku založenou na sémantice rámců a v podobě on-line. Lexikální sémantikou se zabývá P. Hanks (s. 417–426); jde mu o propojení informací o slovním významu s informací o užití slova. Shrnující pohled na počítačovou lexikografii založenou na korpusu podává ve své úvodní přednášce na světovém kongresu EURALEX 1992 F. Karlsson (s. 427–454). V příloze jeho stati je několik ilustrativních příkladů využití analyzátoru založeného na koncepci gramatiky s omezeními. Dalším příspěvkem v tomto oddílu je stať K. W. Churche a kol. (s. 455–474) o lexikální substituovatelnosti. Poslední stať oddílu (R. Last, s. 475–491) se zabývá možnostmi využití korpusu při automatickém vyučování jazyků.

Osmý, závěrečný oddíl souboru překladů je věnován otevřeným otázkám a problémům korpusové lingvistiky. Obsahuje bohužel jen jedinou stať (J. Clear, s. 495–513), věnovanou komputační (převážně však statistické, frekvenční) analýze slovních kolokací. Jsem přesvědčena, a spolu se mnou jistě i sestavovatelé a překladatelé recenzovaného sborníku, že otevřených otázek je celá řada, od vlastního sběru dat a jejich [68]anotování (téměř zcela nedotčena zůstala bohužel i problematika dat mluvené řeči, kromě velmi stručné motivační zmínky v článku K. W. Churche a R. L. Mercera) přes sporný názor některých komputačních lingvistů, že „neexistují lepší data než více dat“, až po vymezení oboru korpusové lingvistiky samé. Jsem si plně vědoma významu korpusové lingvistiky, ale nedomnívám se, na rozdíl od některých autorů sborníku, že „korpusová lingvistika je nesporně hlavní složkou lingvistiky komputační“ a že „v jiném pohledu se s ní značně překrývá“ (s. 17). Z pohledu komputační lingvistiky (pro nějž ve sborníku najdeme řadu argumentů, např. ve zmíněném historickém přehledu Francisově) lze najít korpusově založené analýzy přirozeného jazyka již v letech dávno minulých (v jistém smyslu každý empiricky (sic!) založený lingvista vyvozoval své závěry z analýzy svého „korpusu jazykových dat“) a komputační lingvistika jen nastolila kvantitativně (a doufejme, že alespoň v budoucnu i kvalitativně) vyšší úroveň kompilace a zpracování korpusů, přičemž nezůstává stranou ani množství a důležitost řady teoreticky i aplikačně zaměřených okruhů tohoto oboru.

Ústav formální a aplikované lingvistiky MFF UK
Malostranské nám. 25, 118 00 Praha 1

Slovo a slovesnost, ročník 63 (2002), číslo 1, s. 65-68

Předchozí Jasňa Šlédrová: Jadwiga Linde-Usiekniewicz: Określenia wymiarów w języku polskim

Následující Ludmila Uhlířová: Luděk Hřebíček: Variation in Sequences