Časopis Slovo a slovesnost
en cz

Francouzský textový korpus a systém elektronických slovníků

Jana Klímová

[Rozhledy]

(pdf)

French text corpus and the system of an electronic dictionary

Počínaje 60. a 70. lety a zejména v posledním dvacetiletí se rozšiřuje užití počítačů v mnoha oblastech lidského konání. To znamená, že je třeba vytvářet prostředky snadné komunikace mezi uživateli neprogramátory a počítačem. Vznikají nové programy pro snadné vytváření a zpracování textů. Nastala tedy doba, kdy máme k dispozici mnoho textů v elektronické podobě a je v zájmu lingvistů i informatiků, aby vytvářeli společná pracoviště, která využijí tento materiál pro účely lingvistiky, například v oblasti lexikografie pro vytváření velkých slovníkových databází, porovnávání různých jazyků apod.

Ve Francii takové pracoviště vzniklo již na samém počátku 60. let, první myšlenku založení báze dat elektronických textů vyslovil v roce 1957 Paul Imbs, tehdejší profesor romanistiky na univerzitě ve Štrasburku, pozdější rektor Akademie v Nancy. Rozhodl se vytvořit velké slovníkové dílo pod názvem Trésor de la langue française (TLF), inspirací mu byl velký slovník angličtiny Oxford English Dictionary. V roce 1960 bylo založeno speciální pracoviště pro vytváření TLF, v roce 1964 toto pracoviště získalo novou budovu vybavenou mocným počítačem Bull Gamma 60. Na počátku byly jediným nosičem dat děrné pásky, později se přešlo na magnetopáskové jednotky. Od roku 1970 bylo k dispozici 80 milionů běžných výskytů slov v podobě zpracovatelné počítačem s možností tvorby indexů, konkordancí, zjišťování souvýskytů a jiných statistických ukazatelů. První svazek TLF (francouzština z období 1789–1960) se objevil v roce 1971, další následovaly v letech 1973, 1974, 1975, 1977, 1978 a 1979. Koncem 70. let se stal ředitelem TLF Bernard Quemada, který rozšířil tým pracovníků díky značné finanční podpoře od CNRS (Centre National de Recherches et Sciences), založil Národní ústav francouzského jazyka (L’Institut National de la Langue Française, INaLF) a pokračoval ve vydávání dalších svazků TLF, v letech 1980, 1982, 1983, 1985, 1986, 1988, 1990 a 1992 byly vydány svazky 8–15, poslední je připravován na letošní rok.

Současným ředitelem INaLF je Robert Martin, posláním ústavu je vyvinout program výzkumu francouzského jazyka, zvláště jeho lexika v oblastech jazyka literárního (14. až 20. století), jazyka současného (psaného, mluveného i argotu) a jazyka vědeckého (terminologického). Souběžně s vydáváním svazků TLF probíhaly práce na vytváření programových prostředků pro TLF, aby data byla snadno přístupná a využitelná pro co nejširší okruh zájemců z řad odborníků i veřejnosti. TLF tak získal vlastnosti relační databáze a stal se velkou lexikologickou bází, která se neustále vyvíjí. Tato báze je dále využívána a automaticky zpracovávána jako báze znalostí. Projekt automatického využívání je řízen ve spolupráci s Francouzskou národní knihovnou (Bibliothèque Nationale de France, BNF).

INaLF seskupuje v současnosti několik specializovaných pracovišť zabývajících se zpracováním a využíváním TLF.

[296]Ve Středisku pro výzkum TLF (Centre de recherche pour un Trésor de la langue française) v Nancy zahájili práci na rozsáhlém bibliografickém, lexikologickém a textovém souboru, který se stal důležitým nástrojem pro práci lingvistů i pro veřejnost. Tato textová báze, nazvaná FRANTEXT, zahrnuje 5 století literatury, reprezentativní sbírku textů z oblasti vědy, umění a techniky (asi 3200 textových jednotek počínaje rokem 1532 až po současnost) a umožňuje interaktivní přístup ke 180 milionům běžných výskytů slov. Tato báze je obsluhována softwarem zvaným STELLA (Système de Textes en Ligne et Libre Accès) na univerzitní počítačové síti pod operačním systémem UNIX. V bázi je možno vyhledávat podle autora, titulu nebo jeho části, typu textu, data vzniku textu – tato kritéria výběru lze kombinovat, zadávají se pomocí menu. Rovněž lze vyhledávat posloupnosti slov či řetězce znaků, různě velké kontexty a zadávat statistické výpočty (frekvence a jejich rozložení), je možno využívat charakteristiky postavení slova v textu. Uživatel má možnost provádět třídění, výběr a označování podle několika kritérií. Bázi FRANTEXT je možno využívat asi v 50 veřejných knihovnách nejen v mnoha místech Evropy, ale i v Kanadě a v Japonsku. Nakladatelství Hachette vydalo v nedávných letech část báze FRANTEXT na kompaktním disku pod názvem DISCOTEXT 1. Tento CD-ROM obsahuje 579 textů od 120 různých autorů napsaných nebo vydaných v letech 1827 až 1923 a zahrnuje 36 milionů různých slov. DISCOTEXT je dodáván s programem pro výběr slov, posloupnosti slov, části textu, umožňuje vytvářet abecední seznamy autorů či názvů textů. Uživatel si může vytvářet části korpusu a pracovat s nimi stejně jako s celým korpusem.

V roce 1991 vzniklo nové oddělení Complément du Trésor de la langue française, kde se v současné době vytváří doplněk k 16 dílům TLF, jehož cílem je umožnit lepší přístup k informacím v TLF, doplnění a opravy některých informací v TLF, zvláště bibliografických. Vytváří se kumulativní seznam všech slov TLF a kumulativní seznam nejčastěji užívaných zkratek. Slovníková část doplňku obsahuje 8000 hesel.

Jednou ze součástí INaLF je L’Institut de l’histoire du dictionnaire français (Ústav historie francouzského slovníku), který se zabývá studiem historie francouzských slov, obsahem jednotlivých francouzských slovníků a zdroji, na základě kterých byly slovníky vytvářeny.

V laboratoři Lexicometrie et textes politiques je hlavním tématem výzkumu automatická analýza korpusu obsahujícího sociopolitické texty od roku 1770.

V Laboratoire de Linguistique Informatique na Université Paris XIII spolupracují na vytváření elektronických slovníků, kódování substantiv, typologii složených slov a na slovníku neologismů. Laboratoř je součástí projektu Eurolang.

V Centre de Terminologie et Néologie zkoumají vědeckotechnické neologismy, vytvářejí systematickou terminologii a informatické nástroje pro výzkum terminologie.

Laboratoire de Statistique Linguistique se zabývá statistickým zpracováním velkých souborů dat uložených v databázích, vytváří indexy, konkordance, frekvence v těchto souborech. V této laboratoři byl vyvinut program Hyperbase.

Ve výzkumném oddělení Unité de Recherche sur le Français Ancien se zaměřují na vytvoření Dictionnaire du Moyen Français (slovník období 14.–15. století).

[297]Hlavními oblastmi výzkumu v laboratoři Syntaxe, Interprétation, Lexique jsou derivační morfologie (derivační gramatika a derivační slovník francouzštiny), lexikální a gramatická sémantika, metalexikografie a teoretická lexikografie.

V oddělení Usages et marges du français dans la seconde moitié du XXe siècle se zabývají zpracováním jazyka druhé poloviny dvacátého století, tzn. vytvářejí textový korpus a lexikografický fond tohoto jazyka, spolupracují s pracovišti v zemích, kde se též hovoří francouzsky (Belgie, Švýcarsko, Kanada).

Skupina Français Préclassique se orientuje na výzkum jazyka z období let 1500 až 1650, vytváří databázi textů 16. stol. jako součást databáze FRANTEXT a hlavním cílem je tvorba slovníku Dictionnaire de la langue française du XVIIe siècle.

V Laboratoire d’Automatique Documentaire et Linguistique (LADL) na Université Paris VII se tým vedený prof. M. Grossem zabývá vytvářením elektronických slovníků a gramatik. V roce 1993 jsem zde byla na studijním pobytu, seznámila jsem se tedy blíže s prací tohoto kolektivu.

Systém DELA (Dictionnaire électronique du LADL) je využíván pro orientaci v rozsáhlých textech a pro automatickou indexaci textů. Pracovníci LADL vypracovali analytické procedury využívající elektronické slovníky a gramatiky k rozpoznání jednotek textu.

Elektronický slovník je báze dat, je tedy snadno zpracovatelný počítačem a přitom přístupný lingvistovi. Elektronické slovníky by se měly vyznačovat následujícími znaky:

a) informace v elektronickém slovníku by měly být co nejpřesnější, počítač nemůže využívat určité znalosti, které se předpokládají u člověka,

b) elektronické slovníky by měly být kompletní, tzn. měly by obsahovat co nejúplnější seznam slov,

c) informace uložené v elektronických slovnících by měly být přizpůsobeny pro automatizované zpracování programovými prostředky, nevýhodou těchto slovníků je to, že většinou nezachycují významy slov.

Systém DELA se skládá z následujících částí:

1. DELAS (Le dictionnaire électronique des mots simples) je elektronický slovník jednoduchých slov, který obsahuje 80 000 slov převzatých ze slovníků Larousse, byly sem zahrnuty i některé neologismy. Jednoduchým slovem se zde rozumí jednotka textu definovaná na abecedě kódu ASCII nebo EBCDIC o 256 znacích, která neobsahuje žádný oddělovač (mezera, pomlčka, apostrof ap.). Tato definice jednoduchého slova má nevýhodu v tom, že zahrnuje i slova vytvořená skládáním, např. désoxyribonucléique) či naopak části slov složených oddělených oddělovačem (např. parce, tohu, bohu).

Slova jsou v tomto slovníku uložena v normalizované podobě, tzn. slovesa v infinitivu, substantiva v jednotném čísle a adjektiva v mužském rodě jednotného čísla.

Každý záznam hesla v tomto slovníku má jednoznačnou strukturu, která zahrnuje zápis slova doplněný označením slovního druhu a u ohebných slov morfologickým kódem, který odkazuje na popis časování u sloves či způsob tvoření plurálu u substantiv a ženského rodu u adjektiv, v případě nepravidelnosti je dodán kód pro omezení forem (u některých slov nelze tvořit plurál nebo naopak apod.). Slova se dělí do morfologických tříd:

[298]a) substantiva (N) a adjektiva (A) se dělí do 80 flektivních tříd,

b) slovesa (V) jsou tříděna do 98 tříd podle typu časování.

Homonyma jsou uložena pod jedním heslem a označena příslušnými kódy. Např. slovo ferme má tři označení pro slovní druh (substantivum, adjektivum, adverbium): ferme N3, A1, ADV (farma; pevný; pevně). Sémantické rozdíly se tu neprojeví, např. sloveso voler má dva významy s odlišnou tranzitivitou, znamená ‚létat’ i ‚krást’. Jeden záznam databáze slovníku tedy může ve skutečnosti reprezentovat více reálných slov, vezmeme-li v úvahu víceznačnost. To znamená, že počet slov reprezentovaných v tomto slovníku je větší než počet slov zapsaných, počty slov v hlavních slovních kategoriích jsou uváděny takto: 50 000 substantiv, 20 000 adjektiv, 11 600 sloves, 2 800 adverbií. Na základě textů je vytvářen frekvenční slovník. Vzhledem k tomu, že zdrojem pro DELAS byly psané texty, není frekvenční rozložení relevantní pro všechny funkční styly francouzštiny.

2. DELAF (Le dictionnaire électronique des formes fléchies) je slovník tvarů odvozených ze vstupů slovníku DELAS na základě skloňování a časování pomocí gramatických kódů. DELAF obsahuje asi 800 000 slov. Jedno heslo zahrnuje:

a) zápis slova v odvozené podobě,

b) základní podobu slova s gramatickým kódem ze slovníku DELAS,

c) identifikaci odvozené podoby slova:

Ukázka souboru flektivních tříd pro odvození tvarů substantiv a adjektiv:

N/A21 = -,0,-,s

N/A35 = eur, euse, eurs, euses

Příklady zápisu ve slovníku DELAF:

maison, maison.N21:Nfs

maisons, maison.N21:Nfp

danseur, danseur.N35:Nms

danseuse, danseur.N35: Nfs

danseurs, danseur. N35:Nmp

danseuses, danseur. N35:Nfp

Používají se zde gramatické kódy: m pro mužský rod, f pro ženský rod, s pro jednotné číslo a p pro množné číslo.

Pomocí tohoto slovníku lze snadno indexovat jakýkoli text, slova z textu jsou převedena do své základní podoby (proces lematizace) a jsou opatřena informací o gramatickém kódu slova, neboť na této úrovni mohou slova být víceznačná, zvláště slovesa – stejný tvar je pro:

1. a 3. osobu jednotného čísla oznamovacího způsobu (gramatické kódy P1s a P3s),

pro 1. a 3. osobu jednotného čísla subjonktivu (S1s a S3s),

pro 2. osobu jednotného čísla rozkazovacího způsobu (Y2s).

Soubor DELAF vyžaduje přes 10 MB paměti, po komprimaci 1 MB. Rychlost vyhledávání slov v textech při využití komprimovaného slovníku na personálním počítači PS/2 je 100 000 slov za minutu. Software je psán v jazyku C pod operačním systémem OS/2. Tyto programy mohou být využity pro kontrolu a opravy správnosti textů (tzv. spelling-checker a automatický gramatický korektor).

3. DELAP (Le dictionnaire électronique pour les representations phonémiques) je slovník spojený z DELAS a DELAF obohacený fonetickou transkripcí u každého slova.

[299]4. DELAR (Le dictionnaire électronique des racines) je slovník kořenů jazyka doplněných vždy seznamem koncovek, které mohou následovat, a označením příslušného tvaru pomocí gramatických kódů, např.:

évit(-er, Vinf; -able, Adj; -ement, Nm).

5. Další součástí systému DELA je slovník složených slov DELAC (Le dictionnaire électronique des mots composés), který obsahuje v současné době asi 110 000 složených slov, z toho:

7 000 složených adverbií, např. en fait (ve skutečnosti),

 

de temps en temps (čas od času);

3 000 složených adjektiv, např. bien portant (zdravý),

 

fait main (ručně vyrobený);

100 000 složených substantiv, tato se dále dělí na skupiny:

 

VN (Verbe Nom – sloveso + substantivum),

 

např. compte-gouttes (kapátko)

 

PN (Préposition Nom – předložka + substantivum),

 

např. après midi (odpoledne)

 

NDN (Nom de Nom – substantivum + předl. de + substantivum)

 

např. lune de miel (líbánky)

 

NAN (Nom Adjectif Nom – substantivum + à + substantivum),

 

např. cuisinière à gaz (plynový sporák)

 

NA (Nom Adjectif – substantivum + adjektivum),

 

např. télévision couleur (barevná televize),

 

NN (Nom Nom – substantivum + substantivum),

 

např. homme-grenouille (potápěč, žabí muž).

     

Struktura záznamu v DELAC je obdobná jako v DELAS, ohebné údaje mají morfologický kód, který se používá pro generování plurálu, případně tvarů ženského rodu. Chápání kompozit je v tomto systému velmi široké a je podřízeno aplikačním cílům rychlého a přesného prohledávání v rozsáhlých textech. Databáze slovníku DELAC je využívána pro indexování technických dokumentů, neboť většina technických termínů jsou složená slova, která mohou být díky tomuto slovníku rychle vyhledána.

6. Důležitou částí systému DELA je soustava syntaktických tabulek („lexiquegrammaire“), které popisují syntaktické a sémantické vlastnosti sloves a jejich argumentů. Lze říci, že tento slovník je jádrem systému.

Tato tzv. „lexikální gramatika“ je vlastně syntaktický elektronický slovník. Data jsou systematicky tříděna, dobře přístupná s ohledem na lexikální informace, slovesa jsou rozdělena do skupin podle svých funkcí (např. typ konstrukce, distribuce aktantů, sémantika). Každá skupina podobných sloves je uložena do tabulky, obecný princip této klasifikace viz Gross, 1968; Guillet – Leclère, 1992.

Na této úrovni se odstraní i lexikální víceznačnost, například dva významy slovesa voler jsou rozlišeny pomocí svých konstrukcí:

N0 voler intranzitivní (,létat’),

N0 voler N1 à N2 se dvěma doplněními (,ukrást někomu něco’).

Jedním z kritérií třídění sloves je jejich strukturní vlastnost. Slovesa jsou tříděna na základě struktury konstrukcí, do nichž vstupují. Vychází se od nejbohatších – ty jednodušší konstrukce jsou považovány za odvozené.

[300]Nejdůležitější uvažované typy struktur jsou následující:

N0 V N1: Paul voit Pierre. Pavel vidí Petra.

N0 V Prep N1 Jean va à l’école. Jan jde do školy.

N0 V N1 Prep N2 Il met de l’eau dans son vin. Přidává si vodu do vína.

N0 V Prep N1 Prep N2 Il tape du poing sur la table. Ťuká prstem do stolu.

Slovesa složená jsou tříděna podle svého jednoduchého slovesa (pomocná slovesa être, avoir a faire patří do zvláštní tabulky):

Il a peur. Má strach.

Il a mal aux dents. Bolí ho zuby.

La barbe de Paul est fleurie. Pavlův vous zešedivěl.

Na základě sémantické interpretace se dělí slovesa například na slovesa pohybu, slovesa přeměny, slovesa vzniku apod.

Hlavním přínosem syntaktických tabulek je odstranění ambiguit, což je podstatné pro analýzu textů. Ke každému slovesu z morfologického elektronického slovníku DELAS byla vedle odkazu na typ skloňování dodána čísla tabulek, kde je toto sloveso blíže popsáno Na základě syntaktického přístupu jsou též vytvářena jednoduchá slova pomocí morfologických postupů, například: ze základní věty Luc rédige le rapport (Luc rediguje zprávu) jsou na základě syntaktických vlastností odvozovány věty s novými tvary jednoduchých slov.

– symetrie: Luc corédige le rapport avec Pol.

 

Luc et Pol corédigent le rapport.

– nominalizace: Luc et Pol sont corédacteurs du rapport.

 

Luc et Pol font la corédaction du rapport.

– pasivum: Le rapport a été corédigé par Luc et Pol.

– negace: Le rapport n’a pas été corédigé par Luc et Pol.

 

Le rapport est incorédigeable.

Systém elektronických slovníků DELA byl vytvořen rovněž pro angličtinu a italštinu, vytvářejí se pro němčinu, portugalštinu, korejštinu. Slovníky DELAS a DELAF jsou vytvářeny ve všech jazycích stejnými programovými prostředky. Provádí se porovnání; obsahuje pro 80 000 jednoduchých slov v normalizované podobě 150 000 tvarů oproti 800 000 odvozených tvarů ve francouzském slovníku DELAF. Pracuje se na vytváření vícejazyčných slovníků na tom principu, že vždy dva jednojazyčné slovníky mohou být dány do relace. Pracoviště LADL se účastní mezinárodního programu strojového překladu EUROTRA a dalších významných mezinárodních projektů (EUREKA, ESPRIT, LINGUA).

 

LITERATURA

 

Gross, M.: Grammaire transformationelle du français, syntaxe du verbe. Librairie Larousse, Paris 1968.

Guillet, A. – Leclère, Ch.: La structure des phrases simples en français. Droz, Genève 1992.

Slovo a slovesnost, ročník 55 (1994), číslo 4, s. 295-300

Předchozí Jana Matúšová: Poznámky k systémovým vztahům v anoikonymii jazykově smíšených oblastí

Následující Jan Kořenský: Ještě několik slov k možnostem výkladu lexikální složky jazyka