Časopis Slovo a slovesnost
en cz

Korpusy polského jazyka

Michal Šulc

[Recenze]

(pdf)

Korpusy polského jazyka

Na začátku krátké řady informačních článků o korpusových projektech slovanských jazyků jsme referovali o korpusech slovinských (SaS, 61, 2000, s. 313–316) a následně chorvatských (SaS, 62, 2001, s. 234–236). Na tyto zprávy dnes navážeme popisem poněkud méně přehledné situace polské. Lingvisté největšího ze západoslovanských jazyků, polštiny, totiž nedokázali dosud sjednotit své úsilí (či sladit své zájmy?) a pracují na několika korpusech paralelně.

 

1. S projektem národního korpusu polštiny přišli nejdříve krakovští pracovníci Institutu polského jazyka Polské akademie věd (dále IPJ). Myšlenka sama vznikla v pracovní skupině prof. I. Bobrowského v roce 1990, kdy vědci IPJ chtěli zahájit práce na novém velkém slovníku, jehož rámcový projekt počítal s tím, že by navazoval na doposud největší slovník polštiny, totiž Doroszewského Słownik języka polskiego. Počáteční nejasnosti, zda novou databázi polštiny budovat jako korpus (u kterého bylo zřejmo, že má hodnotu sám o sobě), nebo jako databázi lingvistických údajů (úžeji spojenou s projektovaným slovníkem), vyřešil fakt, že od tvorby slovníku se začalo po nějaké době ustupovat. Místo databáze lingvistických údajů tedy začal vznikat korpus, zprvu převážně skenováním (dle sdělení pracovníků IPJ práce započaly již v roce 1991). Nástin projektu byl publikován až v průběhu prací (Węgrzynek, 1995).

Korpus byl – alespoň ve svém prvopočátku – projektován s ohledem na zmíněný (během doby však opuštěný) projekt velkého slovníku polského jazyka, což lze vidět například z hraničního data skenovaných textů, roku 1956. (Doroszewského slovník, vycházející od roku 1958, totiž pracoval s literárními texty právě do roku 1956.) Pro volbu tohoto roku mluvily také celospolečenské události ovlivňující i jazyk a literaturu, totiž konec stalinismu v Polsku, spojovaný s varšavským povstáním v říjnu 1956.

Nestandardní skutečností, která stojí za zmínku, je zvolený přístup k reprezentativnosti/vyváženosti korpusu. Z každé knihy, polskými lingvisty vybrané k zařazení do korpusu, je naskenována jen první čtvrtina (či první čtvrtina každého z dílů). Aktuální procentuální zastoupení jednotlivých oblastí – novin a časopisů, románů, učebnic, odborné literatury – nebylo publikováno, podle ústní informace však bude v budoucnu připomínat pražský korpus. Dnes je jednoznačně nejvíce zastoupena současná polská publicistika. Z této oblasti získali pracovníci IPJ v roce 2000 asi 9,5 milionu slovních výskytů; velká část však pochází z internetu. Z krásné literatury jsou asi 4 miliony slov. Původním cílem bylo sbírat texty, které čte průměrný intelektuál, tím je však v tomto případě myšlen člověk s maturitou; odborné texty v běžném slova smyslu jsou tedy v korpusu zastoupeny minimálně.

Korpus zatím není lematizován ani morfologicky tagován a pro práci s ním používají pracovníci – kromě softwaru Integrovaného systému vědeckých informací (dále ISVI) – zejména hongkongský volně šiřitelný program Concapp (také ConcApp), pracující ve Windows 95, 98 a NT. Výběr vhodného softwaru však lingvisté ještě neukončili.

[312]Aktuální velikost korpusu je 16 milionů. (Část tohoto souboru je umístěna také v databázi ISVI, vytvořené za podpory fondu UNESCO.) Pracovníci IPJ zpřístupnili materiál pro veřejnost a jednotliví zájemci mohou korpus na tomto pracovišti zkoumat a zpracovávat, s umístěním na internetu se zatím nepočítá.

 

2. Jako v pořadí druhý vznikl korpus Vědeckého nakladatelství PWN SA (PWN byla dříve zkratka státního nakladatelství s názvem Państwowe Wydawnictvo naukowe), jehož úsek „polských slovníků“ jej začal budovat v roce 1996. Při výstavbě korpusu využívá PWN nejen archivu vlastního, ale spolupracuje ještě s dalšími 43 nakladatelstvími. Při bližším pohledu na roky vydání si můžeme všimnout tendence k diachronní šíři: 1918–1945 (6 %), 1944–1969 (15 %), 1970–1989 (13 %), 1990–2000 (66 %). Texty jsou do korpusu zařazovány celé. Na podzim roku 2001 měl korpus velikost 60 milionů výskytů slov přibližně v následujícím poměru: krásná literatura (24 %), ostatní literatura (40 %), časopisy a noviny (27 %), mluvený jazyk (7 %), letáky a efemera (2 %).

V oblasti beletrie obsahuje korpus zejména klasickou prózu, drama i poezii 20. století, vnitřní poměr mezi nimi však nebyl publikován. Nejstarší text je z roku 1918, protože tento rok považuje polská lingvistika za hranici současné polštiny (z důvodů ovšem spíše politických nežli jiných). Také relativně velký podíl krásné literatury nevyplynul z lingvisticky zaměřených šetření, ale z polské tradice považovat texty kulturních autorit za kritérium jazykové správnosti.

Oblast publicistiky a literatury „non-fiction“ je vnitřně členěna následovně: historie, memoáry a geografie (19 %), politika a ekonomie (16,5 %), sociální vědy (5 %), denní tisk (10 %), literární teorie a lingvistika (17,5 %), filozofie a náboženství (4,5 %), přírodní vědy a matematika (5 %), vědy aplikované (5,5 %), volný čas a různé (11 %), umění (4,5 %).

Publicistika zde zahrnuje jak centrální a lokální tisk, získaný od vydavatelů přímo v elektronické podobě, tak internetová vydání (asi 25 %), největší díl však bylo bohužel třeba získat skenováním. Deníky jsou v publicistice zastoupeny asi 20 %.

Mluvený jazyk byl nahráván přímo pro tento projekt (se svolením mluvčích), a to jak v situacích neoficiálních (kolem 40 %, z toho 60 % neformální konverzace), tak z rádia (přibližně 20 %) a televize (asi 40 %; velkou část tvoří talk show, kde jazyk je neformální či poloformální). Pro zápis však byl použit tradiční pravopis, takže zřejmě hlavním přínosem bude záznam repetic a přeřeknutí. Rodilý mluvčí češtiny by však měl zvážit fakt, že polština nemá podobnou vrstvu substandardu, jakou má jeho mateřština v útvaru nazývaném obecná čeština.

Texty bohužel nejsou lematizovány a neobsahují ani morfosyntaktické značkování. Flexi lze tedy zachytit jen prací s kořeny slov a tzv. „divokými kartami (či znaky)“, tedy nespecifikovanými jednotkami, nahradíme-li jimi sufixy. Jinak lze korpus zkoumat celkem běžnou škálou dotazů, a to v softwaru WordSmith. Starší program Searchit bude pro své velmi omezené možnosti zřejmě brzy opuštěn (dokáže pouze vyhledat slova v kontextu, dále s nimi pracovat nedovede).

[313]Reklamní a obecně informační branou celého projektu je veřejný internetový přístup k malému, dvoumilionovému vzorku, který byl stratifikovaným náhodným výběrem sestaven z úryvků o velikosti 1,500 až 6,000 slov. Celý korpus není všeobecně přístupný veřejnosti a není přístupný na internetu, lze s ním pracovat jen v PWN. Redaktoři a spolupracovníci nakladatelství jej používají při lexikografické práci (Bańko, 2000); kromě nich však mají k materiálu přístup ještě studenti polonistiky.

 

3. V pořadí třetím korpusem polštiny je Polský národní korpus, který vznikl v roce 1997 na lodžské univerzitě pod projektem PELCRA (Polish and English Language Corpora for Research and Applications) z iniciativy prof. B. Lewandowské-Tomaszczykové. Na projektu spolupracuje katedra angličtiny Univerzity v Lodži s Univerzitou v Lancasteru. Jedním z důvodů této spolupráce je rozhodnutí, že půjde o projekt strukturně podobný BNC.

Dle dostupných informací má Polský národní korpus v současné době velikost 150 milionů výskytů. Jeho menší, asi padesátimilionová část je sestavena v poměru 73 % publicistiky, 18 % knih, 7 % zapsané mluvené polštiny a 2 % různých tiskovin, kritéria tohoto vyvažování publikována nebyla. Zbývající větší část obsahuje v převážné většině publicistiku, malá část je z oblasti odborného jazyka (diplomové a disertační práce apod.). Subkorpus zapsané mluvené polštiny obsahuje 79 nahrávek o celkové délce 16, 5 hodiny.

Osm mimolingvistických charakteristik textu lze zjistit z tagů, které odpovídají standardům TEI (Text Encoding Initiative) – kódová stránka, text mluvený/psaný, zdroj, autor, rok vydání, překlad/původní dílo, médium, vzorek/celek. Navíc existuje malý trénovací subkorpus o velikosti 100 000 slovoforem, který obsahuje morfologickou anotaci ručně přidanou lingvisty. K automatickému anotování celého korpusu však zatím přikročeno nebylo.

Korpus je přístupný i pro veřejnost, pokud budou zájemci deklarovat pouze výzkumné záměry. Lze s ním pracovat ve Windows i v Linuxu, software si však musí každý jednotlivec vybrat (a pořídit) sám. Pracovníci projektu PELCRA používají běžné korpusové nástroje: WordSmith, MonoConc nebo program Sara32 (pro práci s BNC). Ani desetimilionový soubor, který je lodžskou univerzitou prodáván na CD-ROM, žádný specializovaný software neobsahuje.

 

4. V roce 1999 zpřístupnil A. Przepiórkowski na serveru ohijské univerzity (The Ohio State University – OSU) první polský korpus na internetu, dnes fungující na stránkách Institutu základů informatiky Polské akademie věd (Instytut Podstaw Informatyki Polskiej Akademii Nauk – IPI PAN) pod názvem IPIPAN / OSU korpus. Velikost přes 13 milionů slov by se na první pohled mohla zdát dostatečná pro výzkum alespoň některých rovin či oblastí jazyka, při bližším pohledu do korpusu však zjistíme, že text je bez polské diakritiky a že vyhledávací program jen zobrazí vyhledané konkordance (rozdělené podle zdrojů), další možnosti práce však nenabízí. Výhoda přístupu přes internet rozhodně nemůže vyvážit uvedená omezení. Na uzavřený a od dubna 2000 dá[314]le nerozvíjený projekt je tedy adekvátní nahlížet podobně, jak to činí jeho autor, když píše, že jde o „toy corpus“, korpusovou hračku.

 

5. Nejmladším polským korpusovým projektem je v současné době Velký anotovaný korpus psané polštiny, jehož budování započalo za spolupráce Polské akademie věd a Varšavské univerzity v dubnu (resp. srpnu) 2001, a to díky grantové podpoře (7 T11C 043 20) Státního výboru pro vědecký výzkum.

Jeho cílem je – a jeho autoři říkají „na rozdíl od korpusů předchozích“ – nabídnout možnost práce s korpusem komukoli, kdo místopřísežně prohlásí, že jej nebude využívat komerčně. V tomto rámci projekt také použil dotazníkovou metodu, aby zjistil, co by potenciální uživatelé od veřejně přístupného korpusu očekávali.

Kvůli všeobecné přístupnosti bude moci zahrnovat jen ty texty, u kterých získají pracovníci projektu písemný souhlas k jejich zveřejnění. Podle jejich vlastních slov se však spokojí s náhodně vybranými úryvky z děl.

Projektovaná velikost je 75 až 100 milionů slov a mimo proklamovaný jazyk psaný bude obsahovat i divadelní, filmové, televizní a rozhlasové promluvy. Korpus by měl být přístupný na internetu, měl by obsahovat strukturní a slovnědruhovou anotaci a reprezentativní subkorpus o velikosti 15 až 25 milionů slovních výskytů, vytvořený podle principů BNC.

 

6. Kromě středních a větších projektů se můžeme v Polsku setkat i s několika korpusy velmi malými. Pod projektem PELCRA vzniká v Lodži jednak Korpus studentů angličtiny, který je využíván k detekci prototypických chyb a touto cestou k výuce, jednak Polsko-anglický srovnatelný korpus sloužící především ke studiu překladatelství. S polštinou lze dále pracovat také prostřednictvím dvoumilionového polského korpusu novinových textů, přístup je však umožněn jen participantům projektu TELRI-II. Pro pozdější porovnání s českým diachronním korpusem bude jistě zajímavý projekt diachronního korpusu polštiny, který pod vedením prof. Twardzika vzniká v krakovské části Institutu polského jazyka Polské akademie věd.

Na závěr je třeba polským kolegům poblahopřát. Nástup nové větve lingvistiky nezaspali a výše popisované projekty jsou slibným výhledem do budoucnosti. Jistě se s nimi budeme setkávat čím dál častěji.

 

LITERATURA

 

BAŃKO, M.: Inny słownik języka polskiego. PWN, Warszawa 2000.

Institut Języka Polskiego. Pracownia metodologii gramatyki:

http://www.ijp-pan.krakow.pl/metodologial.html.

Instytut Podstaw Infromatyki Polskiej Akademii Nauk. IPI PAN / OSU Corpus Search:

http://www.ipipan.waw.pl/~corpus/

ŁAZIŃSKI, M.: Textkorpora in Polen. Ein Überblick. In: K. Böttger – S. Dönninghaus – R. Marzari (eds.), Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV) 4. München 2001.

[315]Polish and English Language Corpora for Research and Applications – PELCRA:

http://www.uni.lodz.pl/pelcra/index-pl.htm

Redakcja Słowników Języka Polskiego: http://slowniki.pwn.pl/korpus/

Wydawnictwo naukowe PWN: http://www.pwn.com.pl/

WĘGRZYNEK, K.: Projekt komputerowego korpusu współczesnych tekstów polskich. In: Język Polski, 75, 1995, 4–5, s. 132–145.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, 116 38 Praha 1

Slovo a slovesnost, ročník 63 (2002), číslo 4, s. 311-315

Předchozí Eva Höflerová: Jana Svobodová: Specifika školské komunikace a výuka mateřštiny

Následující Jana Hoffmannová: K narozeninám Miroslava Červenky