Časopis Slovo a slovesnost
en cz

Korpus slovinského jazyka FIDA

Michal Šulc, Vojko Gorjanc

[Book reviews]

(pdf)

Korpus slovinského jazyka FIDA

(http://www.fida.net)

 

Je jen málo zemí, ve kterých by lingvisté a zejména lexikografové nezaznamenali vznik korpusové lingvistiky a reálné výsledky její práce – zvláště slovníky –, kterých stále přibývá. Zjištění, že Slovinsko nepatří k těmto výjimkám, je potěšitelné.

Zájem i informovanost některých odborníků tu byly dostatečné již dříve, v roce 1997 se však objevil i důležitý prvotní impuls a především – konkrétní projekt. Největší nakladatelství Slovinska (také první v množství vydaných slovníků), totiž Državna založba Slovenije (dále jen DZS), se rozhodlo s týmem 13 mladších lexikografů a pod vedením Dušana Gabrovška připravit nový anglicko-slovinský slovník. V době, kdy práce již probíhaly, se odpovědný redaktor nespokojil se způsobem zpraco[314]vání (který bychom dnes asi označili za tradiční metodu lexikografické práce) a po několika neformálních setkáních s odborníkem na matematickou lingvistiku se rozhodl prosadit pro práci na konečné redakci také použití korpusu. Inicioval tak vznik skupiny FIDA (1. ledna 1997), sdružující 4 velké slovinské instituce, z jejichž názvů si FIDA vypůjčila vždy první písmeno (Filozofska fakulteta Univerze v Ljubljani, Inštitut Jožef Stefan, DZS a Amebis).

Prvotní idea jednojazykového synchronního korpusu druhé poloviny 20. století (s důrazem na díla publikovaná po r. 1980) byla záhy po rozběhnutí celého projektu korigována. Vzhledem k téměř naprosté neexistenci elektronických archivů v letech osmdesátých a kvůli finanční nákladnosti skenování a ručního přepisu se FIDA ve své finální podobě zaměřila na díla z let devadesátých, a to konkrétně z jejich druhé poloviny.

Dnes obsahuje nejen všechny elektronicky archivované publikace DZS (literaturu krásnou i odbornou), ale i texty některých menších nakladatelství (Beletrina, Desk, Študentska založba ŠOU, Karantanija, Založba zavoda za šolstvo), odborné texty z edičních oddělení některých ústavů (Institut Jožef Stefan, Znanstveni inštitut Filozofske fakultete, Inštitut humanističnih ved), denní tisk (Delo, Dnevnik, Večer), regionální noviny (Dolenjski list, Gorenjski glas, Notranjske notice, Novi tednik Celje, Savinske novice, Portorožan a Primorske novice) a samozřejmě časopisy (Lipov list – turismus, Glamur – móda, Annales in Acta Histria – historie, Moj pes – kynologie, Muska – hudba, Jama – medicína, TIM – technika, Monitor – výpočetní technika ad.). Celkový objem k 1. dubnu 2000 byl 140 milionů slovních výskytů (token).

Získané elektronické texty se nejdříve převádějí do meziformátu rtf a později do finální formy SGML (Standard Generalised Markup Language). V průběhu zpracování textu jsou odstraněny jinojazyčné části většího rozsahu a vypuštěn obrazový materiál. Oba tyto zásahy jsou zaznamenány v dokumentaci. Před vstupem do korpusu je finální elektronická verze lingvisticky označkována. Oproti Českému národnímu korpusu (dále ČNK) budou do hlavičky textů poloautomaticky zaneseny také bibliografické údaje přenesené z centrálního slovinského elektronického bibliografického systému Cobiss.

Lingvistická anotace v budoucnu umožní, mimo jiné, vyvažování korpusu FIDA, jehož prvním výsledkem by měl být reprezentativní korpus slovinského jazyka o objemu 100 milionů slovních výskytů. Zveřejnění projektu je plánováno na červen roku 2000.

Lingvistická anotace zahrnuje druh textu, médium přenosu a explicitně uvedenou možnost neautentičnosti textu – jazykovou korekturu.

Druh textu (ze zorného úhlu ČNK „textový typ“) se pro pracovníky FIDA stal rozhodujícím rysem pro úvahy o vyváženosti a reprezentativnosti korpusu (podobně jako v ČNK). Strukturace tohoto rysu je (podle současného návrhu) následující:

– druh textu:

 

– umělecký text

6   

%

 

– poezie

0,2

%

[315]

– próza

5,7

%

 

– drama

0,1

%

 

– neumělecký text

94   

%

 

– neodborný

70   

%

 

– odborný

24   

%

 

– společensko-humanitní

14   

%

 

– přírodovědně-technický

10   

%

           

Při rozhodování o procentuální zastoupenosti jednotlivých typů textu vycházeli autoři korpusového projektu především z průzkumu čtenosti tisku a sledovanosti televizních a rozhlasových pořadů (objednán Medianou – Institutem pro výzkum v oblasti médií), z informací o výpůjčkách v knihovnách a ze zkušeností zahraničních korpusových projektů a iniciativy Eagles (Expert Advisory Groups on Language Engineering Standards). Získané informace dovolovaly vytvoření jen hrubé představy o percentuální zastoupenosti jednotlivých textových typů v celonárodní komunikaci, a tak se připravuje samostatná analýza zaměřená na oblast odborných textů. Zkoumanými hodnotami budou v jednotlivých oborech zřejmě (1) množství publikací a (2) celková velikost produkce. Výsledky pak ovlivní zejména zařazení vědeckých textů, což souvisí s úvahou autorů, že texty popularizační a pedagogické jsou určeny širší veřejnosti a jejich volné, na výzkumu nezávislé zařazování do kurpusu s sebou tedy nese mnohem menší nebezpečí pokřiveného obrazu jazykové reality.

Média přenosu jsou zachycena v následujících kategoriích: text psaný, mluvený a elektronický. Podrobněji je dělena oblast psaného textu, kde oddíl publikovaný text je dále dělen na publikovaný knižně a publikovaný periodicky. Posledně jmenovaný se pak dále rozpadá na noviny (deník, vyd. vícekrát týdně) a časopisy (vycházející jednou týdně, čtrnáctidenně, měsíčně, řidčeji než měsíčně). Oddíl nepublikovaný text se dělí na veřejný, interní a soukromý. Použít lze jakoukoli značku z uvedené hierarchie (např. nebude-li periodicita známa přesně, bude uvedeno pouze „periodicky“).

Přestože slovinští lingvisté se při zařazování děl do korpusu zajímají (podobně jako pracovníci ČNK) především o recepci díla – tedy o tu finální podobu textu, která se dostane ke čtenáři –, součástí kategorizace je také údaj, zda text prošel, či neprošel jazykovou korekturou (a je autentický z hlediska autora).

Nad rámec této oficiální kategorizace můžeme podotknout, že autoři projektu se v odborných textech věnovaných tomuto tématu zmiňují o možnostech ještě jemnějšího členění. Hovoří např. o rozdílu mezi textem psaným a určeným k četbě a textem původně sice psaným, ale určeným k mluvenému projevu. Zdůrazňují nutnost vyčlenění elektronické komunikace jako samostatné kategorie a navrhují její další členění (elektronický přenos zapsaných textů versus dialogická elektronická komunikace). Také vyjadřují svůj záměr v budoucnosti konstituovat podkorpus mluvených textů. Již dnes shromažďované transkripce mluvené slovinštiny (parlamentní rozpravy) v současném projektu FIDA však nefigurují jako veřejnosti přístupná část.

Přestože korpus FIDA byl veřejnosti představen teprve v loňském roce, podnítil na stránkách odborného tisku již několik úvah porovnávajících dřívější (řekněme klasic[316]kou) a dnešní (v mezinárodním měřítku tedy převážně korpusovou) lexikografii. Vedle kritiky tzv. „slovníkových slov“, která se ve slovnících objevovala vlastně jen jako odraz slovotvorných možností jazyka a bez dokladovaného autentického užití, bývá zmiňována viditelná proměna organizace hesla, důraz na frekvenci, na víceslovné lexikální jednotky, resp. frazeologii a vyzdvihován je fakt, že spolu s mluvenými korpusy (podkorpusy) začíná do slovníků více vstupovat mluvená podoba jazyka.

V reakci na vznik FIDA zaznívají v slovinském odborném tisku nejen nadšené hlasy volající po konstituování vysokoškolského programu „počítačové lingvistiky“ (pregradualním nebo postgraduálním), ale i smutné poznámky o nekoordinovaném postupu, týkající se vztahů mezi korpusem FIDA a paralelním slovinsko-anglickým korpusem ELAN (ten vzniká v Institutu Jožefa Stefana).

Celý projekt je už dnes významným počinem v oblasti korpusové lingvistiky obecně a moderním pomocníkem slovinské národní lingvistiky specificky. Slovinským kolegům můžeme poblahopřát k významnému vykročení správným směrem a budeme pozorně sledovat jejich další kroky na poli korpusové lingvistiky při již zmíněné konečné redakci anglicko-slovinského slovníku i dalších děl na korpusu založených. Je důležité, aby i malé jazykové komunity pečovaly o své jazyky, a je vidět, že Slovinsko to dělá.

 

LITERATURA

 

ERJAVEC, T.: Oznake korpusa FIDA. Uporabno jazikoslovje, 6, 1998, s. 85–95.

ERJAVEC, T. – GORJANC, V. – STABEJ, M.: Korpus FIDA. In: Jezikovne tehnologije za slovenski jezik. Mednarodna multi-konferenca Informacijska družba – IS’98, Ljubljana, 6. do 7. oktobra 1998, s. 124–127.

GORJANC, V.: Korpusi v jezikoslovju in korpus slovenskega jezika FIDA. In: Zbornik predavanj – 35. seminar slovenskega jezika, literature in kulture. Ljubljana 1999, s. 47–59.

GORJANC, V.: Kaj in kako v korpus FIDA? Razgledi, 13, 1999, s. 7–8.

KREK, S.: Računalniški korpusi v slovaropisju. Razgledi, 13, 1999, s. 8.

STABEJ, M.: Besedilnovrstna sestava korpusa FIDA. Uporabno jazikoslovje, 6, 1998, s. 96–106.

STABEJ, M.: Storiti nekaj za slovenski jezik. Razgledi, 13, 1999, s. 6–7.

VINTAR, Š.: Zlato tistemu, ki ga koplje. Razgledi, 13, 1999, s. 9.

M. Šulc:
Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, Praha 1
V. Gorjanc:
Oddelek za slovanske jezike in književnosti, FF Univerza v Ljubljani
Aškerčeva 2, 1000 Ljubljana, Slovenija

Slovo a slovesnost, volume 61 (2000), number 4, pp. 313-316

Previous Karel Kučera: Projekt slovníku staré italštiny

Next Redakce: Zemřel Jan Firbas