Časopis Slovo a slovesnost
en cz

Korpus chorvatského jazyka HNK

Michal Šulc

[Recenze]

(pdf)

Korpus chorvatského jazyka HNK

Korpus chorvatského jazyka HNK

http://www.hnk.ffzg.hr

 

Není tomu tak dávno, co jsme v této rubrice informovali o zajímavém korpusovém projektu z Lublaně, o projektu FIDA (Šulc – Gorjanc, 2000). Slovinci však nejsou jediní z jižních Slovanů, kteří v posledních desetiletích pozorně sledovali viditelný nástup a postupné sílení korpusové lingvistiky. Také Chorvaté se rozhodli držet v této disciplíně krok se světem – alespoň do té míry, jaká je jim umožněna společensko-ekonomickými podmínkami.

Prvním korpusovým projektem chorvatské lingvistiky na moderních počítačích byl jednomilionový korpus (citovaný jako M-korpus) sestavený M. Mogušem v letech 1976 až 1996. Obsahuje texty z let 1937 až 1978, které jsou děleny do 5 subkorpusů vždy po 200 tisících slovních výskytů (poezie, próza, drama, učebnice, noviny). Texty byly lemmatizovány, a tak na jejich základě vznikly abecední i frekvenční slovníky nejen forem, ale i lemmat a publikován byl Frekvenční slovník chorvatštiny (1999).

Následující korpusový projekt vznikl v širší návaznosti na M-korpus. Idea byla diskutována již v roce 1995, její přední zastánce a v současnosti také vedoucí tohoto korpusového projektu M. Tadić záměr představil širší veřejnosti v roce 1996. Tento v časovém pořadí druhý, z hlediska velikosti a tím i širší využitelnosti však významnější projekt vznikl na základě ministerského grantu v dubnu 1996 pod názvem Chorvatský národní korpus (Hrvatski nacionalni korpus, dále HNK) jako jeden z projektů Ústavu lingvistiky Filozofické fakulty Záhřebské univerzity. Jeho obecným cílem byl sběr a analýza reprezentativních chorvatských textů (sic), starších i současných, a to v takové formě, kterou používají světové korpusy.

V život byl projekt uveden až s první finanční dotací v únoru 1998 a během několika měsíců se členům týmu podařilo vytvořit třímilionový testovací korpus, který byl ještě téhož roku zpřístupněn na internetové síti. V současné době je po síti zpřístupněn již druhý testovací korpus, a to o velikosti 10,9 milionu elektronicky zapsaných slovních výskytů. Během přípravy projektu a v jeho průběhu vznikl také Komputační model flektivního systému chorvatštiny, a jako následující krok pak Morfologický generátor slovoforem chorvatštiny. S jeho pomocí pracovníci HNK vytvářejí Morfologický slovník chorvatštiny ze základu přibližně 35 tisíc lemmat (doprovozený morfosyntaktickými informacemi) – první testovací verze je již na světě a počítá se s jejím využitím při přípravě jednomilionového ručně tagovaného souboru, který bude využit jako testovací data pro (budoucí) tagger.

Celek HNK by měl v budoucnosti sloužit jako podkladový materiál pro dodatek k chorvatské variantě našich Pravidel pravopisu a s jeho využitím se počítá také při synchronním i diachronním výzkumu neologie v chorvatštině. Ten by měl přispět také k poznání a rozvoji chorvatské terminologie. Autoři ale v budoucnu očekávají širší, opravdu mnohostranné využití v kroatistice teoretické i aplikované (lexikografie). Ostatně také necelých 11 milionů slovních výskytů není jejich konečný cíl – brzy zpřístupní sedmnáctimilionový soubor a po dosažení této mety by chtěli pokračovat a korpus dále zvětšit na více než 30 milionů.

[235]M-korpus a HNK však nejsou jedinými projekty, o kterých je třeba se v souvislosti s chorvatskou jazykovou oblastí zmínit. Již v době prvních korpusů se chorvatští lingvisté zajímali o jejich využití v oblasti kontrastivní lingvistiky. Úplně prvním Chorvatem, který se blíže seznámil s korpusy, byl v jejich začátcích (někdy v roce 1967) Ž. Bujas, který během svých studií v Austinu (Texas) vytvořil také první chorvatské konkordance. Po jeho návratu do Záhřebu vznikl z jeho iniciativy v roce 1968 Jugoslávský srbochorvatsko-anglický projekt kontrastivní analýzy pod vedením R. Filipoviće. V roce 1971, kdy projekt skončil, měli Chorvaté k dispozici polovinu Brown korpusu (505 822 slovních výskytů), která strukturou složení odpovídala celku (15 žánrových kategorií), byla morfosyntakticky označkována a přeložena do chorvatštiny. Přestože počítačové pásky s tímto materiálem stále existují, neexistují už dnes počítačové systémy, které by byly schopny je přečíst/zpracovat. Jediným dnes dosažitelným pozůstatkem tohoto projektu jsou tedy 3 publikace záhřebského Ústavu lingvistiky, kde jsou zveřejněny výsledky kontrastivních studií.

V posledním desetiletí však vznikly i další vícejazyčné projekty, navázané především na angličtinu, ale nikoli výlučně na ni. V pořadí prvním byla chorvatská účast ve velkém mezinárodním projektu TELRI II (Trans-European Language Recource Infrastructure), který se týkal 11 národních překladů Platonovy Republiky, na nichž bylo provedeno „zarovnávání“ (alignment).

Důležitější, protože zaměřený specificky na párování angličtiny a chorvatšiny, je projekt Ústavu lingvistiky vzniklý v roce 1999 a nazvaný Chorvatsko-anglický paralelní korpus. Obsahuje dnes texty týdeníku Croatia Weekly, který od roku 1998 vydává Chorvatský institut kultury a informací. V tiskové podobě jde o 16 stran textů z oblasti zahraniční i vnitřní politiky, ekonomie a financí, turistiky, ekologie, kultury i umění (z toho 4 strany inzertní). Korpus pracuje v systému Windows 9*/NT a pro (zatím zkušební) zarovnávání využívá systémy DéjàVu 2.3.82 a Vanilla aligner. Obsahuje všechna čísla týdeníku (s výjimkou prvních pěti) a jeho velikost je 1.6 milionu, respektive 1.9 milionu slovních výskytů pro chorvatštinu, respektive angličtinu. (V budoucnosti bude korpus obsahovat i další texty, v úvahu připadají zejména texty nejpopulárnějšího chorvatského týdeníku Nacional, který začal v poslední době umisťovat na svých internetových stránkách také anglický překlad asi 15 % chorvatského originálu.)

Cílem projektu bylo mimo jiné seznámit se s problematikou paralelních korpusů jako takových (organizace paralelního korpusu, sbírání textů, jejich konverze, značkování a zarovnávání) a připravit techniku, software i odborníky pro práci na dalších paralelních korpusech.

Ze zkušeností při budování tohoto korpusu pak tedy s výhodou čerpal projekt Chorvatsko-slovinského paralelního korpusu, který byl příslušnými ministerstvy obou republik podpořen a posléze v říjnu 1999 také uveden v život. Korpus má být v budoucnu dostupný na síti a jeho cílem bude poskytnout studentům chorvatštiny v Lublani a studentům slovinštiny v Záhřebu jazykový materiál a ovšem i napomoci překladatelům z/do obou jazyků. Korpus bude nezbytný také pro velmi potřebné překladové slovníky, jejichž starší a dnes už opravdu neaktuální verze pracovaly většinou se srbochorvatštinou.

[236]Přejeme tedy na závěr všem projektům příznivou odezvu u mezinárodní i chorvatské lingvistické veřejnosti, více textů už v nejbližších měsících a letech a především to pro budoucnost snad nejdůležitější: zájem běžných Chorvatů a studentů všech oborů. Lingvisté sami už totiž dnes obvykle vědí, že (slovy Marko Tadiće) „polazište je svakoga lingvističkoga istraživanja korpus“ (výchozím bodem každého lingvistického výzkumu je korpus).

 

LITERATURA

 

MOGUŠ, M. – BRATANIĆ, M. – TADIĆ, M.: Hrvatski čestotni rječnik. Zagreb 1999.

ŠULC, M. – GORJANC, V.: Korpus slovinského jazyka FIDA. SaS, 61, 2000, s. 313–316.

TADIĆ, M.: Natural language processing of Croatian and the Croatian national corpus. In: Suvremena lingvistika, 41–42, 1996, s. 603–611.

TADIĆ, M.: Building the Croatian-English parallel corpus. In: Proceedings of the Second International Conference on Language Resources and Evaluation. European Language Resources Association, Athens 2000, s. 523–530.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, 116 38 Praha 1

Slovo a slovesnost, ročník 62 (2001), číslo 3, s. 234-236

Předchozí Evžen Gál: Christina Bratt Paulston – Donald Peckham (eds.): Linguistic Minorities in Central and Eastern Europe

Následující Iva Nebeská: Agnieszka Mikołajczuk: Gniew we wspólczesnym języku polskim