en cz

K otázkám automatického zpracování českého tvarosloví

Alla Bémová, Květa Králíková

[Články]

К вопросам автоматической обработки чешской морфологии / Оn automatic treatment of Czech morphemic

Jedním ze zásadních momentů, podstatných pro další perspektivy lingvistiky, je dnes uplatnění samočinných počítačů (viz Sgall, 1986, zejm. s. 126, 130). V této stati chceme charakterizovat některé problémy, které při takovém uplatnění působí flexívní složitost morfologie češtiny. Zaměřujeme se při tom především na aplikační systémy poměrně jednoduché, které lze i za dnešního stavu výpočetní techniky bezprostředně prakticky využít. Budeme se proto zabývat především lingvistickou problematikou automatického vyhledávání textové informace v rámci rešeršních systémů. Sledujeme zde dva systémy:

První systém, založený na metodě ASIMUT, je použitelný pro vyhledávání informací jak bibliografických, tak i faktografických, jde o systém zčásti podobný soustavě SIUT (Cejpek a kol., 1982; též Kirschner, 1983). Systém je upraven tak, aby od uživatele nevyžadoval žádné lingvistické znalosti. Uživatel (např. právník nebo novinář) prostě zadá na vstupu termíny (i víceslovná spojení), jejichž výskyty si přeje vyhledat, a systém na výstupu vydá bibliografické údaje o všech textech, ve kterých se uvedené výrazy nebo jejich spojení vyskytují, popř. se na výstupu objeví i text relevantních úseků všech takových dokumentů.

Druhý systém, založený na metodě MOZAIKA, opatřuje jednotlivé relevantní dokumenty navíc i údaji o tom, jak závažný je v nich daný termín (do jaké míry je jím označený objekt v centru pozornosti celého dokumentu); jde tedy o tzv. automatické indexování textů (vytváření souborů indexů, terminologických výrazů pro text charakteristických), které je zvlášť vhodné pro rešeršní systémy v technických oborech.

Pro automatické zpracování textů napsaných v jazycích flexívního typu, např. v češtině, je morfologická analýza nezbytnou součástí celkové analýzy textu. Zpravidla se tím rozumí analýza jednotlivých slovních tvarů, tj. minimálních úseků textu mezi dvěma mezerami, popř. mezi mezerou a interpunkčními znaménky; jindy jde i o zjištění morfologické platnosti složených tvarů slovesných apod. Cílem morfologické analýzy při automatickém zpracování textu přirozeného jazyka může být identifikace slov nebo slovních spojení, převedení tvarů v nepřímých pádech jména apod. na tvar základní neboli tzv. lemmatizace, dále přiřazování určitých gramatických i jiných příznaků jednotlivým slovesným tvarům v textu apod. Gramatické příznaky a jiné informace přiřazené při morfologické analýze mohou být využity na dalších stupních automatického zpracování, např. při indexování textů, při sestavování anotací apod.

Každá morfologická analýza je budována především na základě mluvnic analyzovaného jazyka. Avšak ani nejlépe zpracované dosavadní mluvnice určené uživateli s jazykovým povědomím nejsou dostačujícím podkladem pro formulování algoritmických pravidel k automatickému zpracování přirozeného jazyka; automatická analýza vyžaduje totiž jemnější třídění a úplnější zpracování morfologie.[1] Příprava [286]takové analýzy vyžaduje soustavnou práci se slovníkem retrográdním, popř. frekvenčním, využití kvantitativních údajů o textu i systému (např. Těšitelová a kol., 1985), pečlivou registraci výjimek a odchylek a rovněž střízlivé posouzení toho, co z četných nepravidelností a komplikací zahrnout do systému a řešit pravidly a co ponechat stranou.

Automatická morfologická analýza se musí opřít o ty formální příznaky, které jsou obsaženy v samé struktuře lexikálních jednotek. V jazycích flexívního typu se značná část informace o struktuře slova soustřeďuje v jeho zakončení: na základě přípon a koncovek plnovýznamových slov lze určit např. slovní druh, u jmen získat informace o rodu, čísle, pádu, u sloves o osobě, čísle apod. Proto se morfologická analýza flexívních jazyků buduje často na základě seznamů koncových úseků (segmentů).[2]

V češtině nacházíme v zakončení slov celou řadu pravidelností, které umožňují automaticky zpracovat slovní tvary na základě obecných pravidel. Největší jednoznačnost lze zjistit u koncovky -ý. Tato koncovka se vyskytuje jen u tvrdých adjektiv vz. mladý, adjektiv zpodstatnělých typu vrátný, hajný, porybný, zájmen a číslovek adjektivního tvaru, např. který, nějaký, druhý, čtverý, dvojnásobný. Všech 14 000 slov, které uvádí ve svém retrográdním slovníku Slavíčková (1975, dále RS),[3] až na substantivum úterý a slova prý, čehý, patří tedy k jednomu typu skloňování.

Bez větších problémů se daří automatické zpracování slov s příponou -ní. RS zatím uvádí 3990 slov takto zakončených. Lze však předpokládat, že jich bude přibývat, neboť jde o příponu produktivní, pomocí níž se tvoří stále nová slova, zejména substantiva verbální typu analyzování, dekódování. Zatím platí následující pravidlo: Předchází-li před příponou -ní souhláska, jde o adjektivum vz. jarní (s výjimkou substantiv zrní, trní, kde sice nejde o příponu -ní, ale při automatickém zpracování se tento rozdíl nerozliší). Předchází-li samohláska, jde o substantivum vz. stavení; výjimku zde tvoří slova, u nichž jde vlastně o spojení kmenového n s koncovkou -í: srov. substantiva paní, milostpaní, dnes už zastaralé jemnostpaní a adjektiva utvořená od názvů zvířat, jejichž kmen končí také souhláskou n: beraní, havraní, jelení, klokaní, kuní, potkaní, tulení, vraní.[4]

U této přípony je cenné také zjištění, že u substantiv se zakončením -ání (RS uvádí 950 takových slov) jde o verbální substantiva typu zpracování, rozhodování.

K pravidelnostem češtiny lze počítat i produktivní příponu -ost. RS dokládá 3940 slov s uvedenou příponou a ve všech případech jde o substantiva rodu ženského vz. kost. Při automatickém zpracování morfologie je však třeba počítat s tím, že stejného zakončení jsou i substantiva, u nichž o tuto příponu nejde: substantivum rodu muž[287]ského životného host a několik substantiv rodu mužského neživotného, např. chvost, kompost, letorost, most, nerost, porost, post, samorost, skvost.

Zpracování pomocí počítače ulehčují i další dvě přípony, i když tu nejde už o skupiny tak početné. Jde o příponu -iště (v RS doloženo 122 slov, všechna substantiva rodu středního, vz. moře) a příponu -yně (doloženo 100 slov, substantiva rodu ženského, vz. nůše).

Všechna tato i další pozorování mohou být využita při automatické morfologické analýze. Její složitost může být odstupňována v závislosti na náročnosti systémů, do nichž je zařazena.

V systémech, které mají vymezit určité lexikální jednotky nebo pořídit výběr jejich spojení v textu, stačí jednodušší morfologická informace. Systémy, které mají zachytit určitou formální reprezentaci obsahu textu, musí obsahovat širší informace o analyzované lexikální jednotce tak, aby mohly být využity v analýze syntaktické nebo podat též informaci sémantickou.

1. Poměrně jednoduché zpracování morfologie stačí při přípravě systému automatického vyhledávání textových informací; platí to např. o systému ASIMUT. Tento systém vyhledává v souboru dokumentů uložených v počítači místa, v nichž se vyskytl výraz zadaný v dotaze. U jazyků analytických, jako je angličtina, jde o proces dosti jednoduchý. U češtiny komplikuje užití této metody velké množství tvarů každého ohebného slova. S touto problematikou se vypořádává část systému zvaná „jazykový model“. Ten zajišťuje vytváření (derivování) všech tvarů každého ohebného slova použitého v dotaze. Jde o proces, který bychom mohli nazvat analýza pomocí syntézy. Vstupují sem jména ve tvaru nom. sg. a slovesa ve tvaru infinitivu (jejichž zapojení do systému není však ještě dokončeno) a model bez použití předem vypracovaného slovníku kmenů rozpoznává (tedy jen podle zakončení, počet hlásek není pevně stanoven) slovní druh, rod i vzor, vytváří základní kmen i kmeny sekundární (s alternacemi), je-li to nutné, i potřebné tvary připojením koncovek.

Systém, který nepracuje se slovníkem kmenů, je pro praktické uplatnění velmi výhodný jednak proto, že je vlastně univerzální, není vázán na určitý obor, a jednak proto, že je uživatel ušetřen složité práce s aktualizací slovníku. Každý slovník kmenů se totiž musí při ukládání nových textů doplňovat a upravovat a to práci nejen prodlužuje, ale také vyžaduje od uživatele odbornou lingvistickou znalost. Slovník kmenů je tu nahrazen činností lingvisty, který připravuje jazykový model.

I když tu nejde o morfologickou analýzu v pravém slova smyslu, není jednoduché sestavit obecná pravidla, podle nichž systém rozpozná slovní druh a typ skloňování nebo časování jen podle zakončení slovníkového tvaru slova.

Výše uvedené pravidelnosti v gramatickém systému češtiny umožňují její automatické zpracování; existuje však řada nepravidelností, jako ostatně v každém přirozeném jazyce, které zpracování pomocí počítače komplikují. Podle zakončení v nominativu nelze vždy snadno rozhodnout, ke kterému rodu dané slovo patří. Např. slovo zakončené na -e může být substantivum rodu mužského životného (soudce), rodu ženského (nůše) nebo středního (moře). U slov zakončených na -l, -z, -č, -j není snadné zjistit, jsou-li to substantiva rodu mužského či ženského, např. cíl — ocel, plaz — mosaz, vysoušeč — výseč, zloděj — kolej. U koncového -t přibývá navíc homonymie s infinitivem slovesa, srov. list — čelist — číst, kontrast — strast — klást.

U substantiv rodu mužského je mnohdy ještě třeba rozhodnout, kdy jde o příslušnost k vzoru měkkému a kdy k vzoru tvrdému, např. měkké cíl, jetel, pytel, jitrocel proti tvrdému popel, topol, účel, úhel, vrchol. Navíc je třeba stanovit hranici mezi životností a neživotností. Komplikace působí zejména slova zakončená na -ák, -ík, -or, u nichž je přibližně (z celkového počtu 1200 uvedených v RS) polovina slov životných, polovina neživotných. Problémy názorně ukazují tyto příklady: sedlák — bod[288]lák, voják — maják, pták — květák, přeborník — příborník, právník — trávník, návštěvník — zpěvník, řezník — mezník, operátor — generátor aj.

Značně bohatá homonymie je u slov zakončených na -ě. Zde může jít o substantivum rodu ženského jako snídaně, rodu středního vz. moře (např. sídliště), ale i vz. kuře (např. hříbě), ale také o plurale tantum jako lázně, navíc to může být některá ze zvláštností u substantiv jako dítě — děti nebo břímě — břemeno, popř. i slovesný tvar nebo slovo neohebné.

Komplikace vyplývají i ze skutečnosti, že ani substantiva téhož vzoru nemají v některých pádech stejnou koncovku, např. v lok. sg. vzoru hrad máme dvě koncovky -u a -e. Jak známo, v dnešním spisovném jazyce koncovka -u bývá pravidlem např. u substantiv jako v domku, v dialogu, ve větru, na šroubu apod. Některá substantiva mají však vedle tvaru s koncovkou -u i tvar s koncovkou -e, např. v roku i v roce, na balkónu i na balkóně, v autobusu i v autobuse apod., u jiných bývá pravidlem jen tvar s koncovkou -e, např. v lese, v komíně, po obědě apod. Ještě složitější je situace u substantiv rodu ženského, kde mnoho jmen zakončených na souhlásku kolísá mezi vzorem píseň a kost (podrobněji viz Sgall - Weisheitelová, 1968). Tak např. substantiva mast, past se skloňují podle vzoru kost, ale v dat. a lok. pl. mají také tvary podle vzoru píseň. Substantiva pomoc, velmoc aj. mají v dat. a lok. pl. také tvary obojí, ale instr. pl. mají podle vz. píseň, jiná, např. loď, kolísají v singuláru mezi vzory píseň a kost, v pl. však jen v instrumentále apod.

Automatické zpracování české morfologie komplikují také alternace jako měkčení, krácení, dloužení hlásek na konci i uvnitř kmenů, např. k-c, h-z; ale i ů-o, á-a, a-á, e-i, í-ě, pohyblivé e atd. Není snadné sestavit pravidla pro vytváření sekundárních kmenů s uvedenými změnami, a to především z těchto důvodů: K provádění uvedených změn nedochází v jazyce důsledně a v dosavadních mluvnicích češtiny pochopitelně nenajdeme přesná kritéria pro alternace, protože se počítá s intuicí rodilých mluvčích.

V první fázi příprav automatického zpracování morfologie češtiny bylo tedy nutné na základě RS a excerpce textů hledat kritéria přesnější. Ta se však podařilo najít jen v některých případech; bylo zjištěno, že u jednotlivých alternací existuje řada zvláštností a výjimek.

Náročné bylo zejména zpracování podstatných jmen s ohledem na přítomnost či nepřítomnost pohyblivého e. Nacházíme tu řadu pravidelností usnadňujících automatické zpracování; např. u substantiv rodu ženského zakončených na -ka je vsouvání pohyblivého e zcela pravidelné. Ze 2780 slov v RS pouze tři substantiva (odmlka, pomlka, zámlka) v gen. pl. e nevsouvají. Ve stejném typu skloňování je u zakončení -da naopak pravidlem e v gen. pl. nevsouvat, např. mnoho hald, bund, brzd aj. Z 81 slov tohoto zakončení jen substantivum mzda má v gen. pl. vsuvné e (mezd); podrobněji viz Weisheitelová - Králíková - Sgall, 1982.

Hojné jsou však i případy, které automatické zpracování komplikují tím, že existuje řada příkladů, kdy při stejném zakončení některá slova pohyblivé e mají a jiná nikoli, např.

čítárna - čítáren, tiskárna - tiskáren, vodárna - vodáren proti kudrna - kudrn, skvrna - skvrn, srna - srn,[5] dále karta - karet proti črta - črt; podobně jeseň - jesení proti píseň - písní nebo šnek - šnekem proti synek - synkem; člověk - člověkem proti daněk - daňkem; badatel - badatelem proti datel - datlem; obdobně hřeb - hřebem, Záhřeb - Záhřebem proti pohřeb - pohřbem; koniklec - koniklecem proti palec - palcem; úsek - úsekem proti kousek - kouskem; dotek - dotekem proti plátek - plátkem; účel - účelem proti kyčel - kyčlem; vodojem - vodojemem, objem - objemem proti dojem - dojmem, pojem - pojmem; lupen - lupenem proti srpen - srpnem; okres - okresem proti oves - ovsem; dekret - dekretem proti ret - rtem; nálev - nálevem proti název - názvem; stejně pérko - pérek proti brko - brk; ohnisko - ohnisek proti vojsko - vojsk atd.

[289]S různými nepravidelnostmi komplikujícími automatické zpracování jevů morfologických se setkáváme i u alternací na konci kmenů. Např. u substantiv rodu mužského většina slov s kmenovou souhláskou r toto r neměkčí, srov. lok. sg. v záporu, míru, revíru, ve víru, na klavíru aj.; měkčení nastává jen u tří slov na papíře (vedle papíru), na dvoře, v klášteře. U substantiv rodu středního je situace jiná. U některých se kmenové r neměkčí, např. ve vědru, vedru, nitru, šeru, žebru aj., u některých se naopak měkčí, např. v patře, na stříbře; u dalších jsou kodifikovány tvary obojí, např. v jádru/jádře, pouzdru/pouzdře, jezeru/jezeře.

Další nepravidelnosti nacházíme u alternace ů-o v kmeni slova. U jednoslabičných substantiv (všech rodů) zakončených souhláskou dochází k této změně dosti pravidelně. Ze 17 slov, uvedených v RS, jen ve 4 případech se ů nemění; např. důl - dolu, stůl - stolu, dům - domu, vůz - vozu, nůž - nože, lůj - loje, kůň - koně, ale kůl - kůlu, trůn - trůnu, kůr - kůru, tůň - tůně.

U substantiv vz. nůše jsme se setkali jen s 12 slovy s ů v kmeni a téměř ve všech případech při skloňování se toto ů podržuje, např. vůle - vůlí, chůze - chůzí, růže - růží. Jen slovo kůže má tvary dvojí, vedle kůží i koží.

U substantiv rodu ženského typu žena máme doloženo 16 slov s kmenovým ů, k alternaci však dochází jen v jednom případě, kůra - kor (vedle kůr), vedle půda - půd, můza - můz, krůta - krůt, chůva - chův, hrůza - hrůz aj.

Při automatickém zpracování české morfologie působí velké potíže nepravidelnosti v krácení kmenové samohlásky jako á-a, í-i, í-ě, ou-u. Ke krácení dochází u substantiv všech rodů a mnoha vzorů, avšak nedůsledně, takže se nedaří na základě zakončení stanovit pravidla pro toto krácení. Např. ve slově tráva, kráva se á krátí, ale neplatí to o slovech zpráva, sláva, šťáva; podobně čára - čarou, pára - parou, ale kára - károu, škvára - škvárou, dále mráz - mrazu, ale sráz - srázu, bída - běd, ale slída - slíd atd. Navíc působí potíže i různost pádů, ve kterých ke krácení dochází. U stejného typu se krátí á jen v gen. pl., např. u substantiv jáma, chvíle, smlouva, jindy ještě v dat., lok. a instr. pl., např. u substantiv skála, plíce; u další skupiny přibývá i krácení v instr. sg., např. u pára, lípa. Navíc v mnoha případech připouští kodifikace tvary oba, např. ránou i ranou, dráhou i drahou, sílou i silou apod.

Nemenší komplikace působí alternace nepravidelné typu přítel - přátelé, čest - cti, křest - křtu, vejce - vajec a supletivismus typu člověk - lidé, být - je - bude, jít - jde - šel apod.

Řešení tu nemůže být dáno jen obecnými pravidly; jde o jevy specifické pro jednotlivá slova. Systém pro automatické zpracování morfologie musí být ovšem efektivní, a proto je často nutné volit kompromis mezi zpracováním lingvisticky úplným (včetně seznamů výjimek) na straně jedné a praktickou účelností na straně druhé. Čas a paměť počítače je třeba mít na zřeteli i při rozhodování, které z těchto zvláštností je třeba ještě zahrnout do systému a které je možno nechat stranou. Proto jsme řešili případ od případu tak, abychom dospěli k potřebným výsledkům a přitom práci systému příliš nezatížili.

Řadu zvláštností morfologického systému češtiny se podařilo vyřešit vytvořením zvláštních vzorů, které obsahují sjednocení množin koncovek dvou typů skloňování. Jeden takový vzor řeší problém homonymního zakončení -ík, -ák, druhý kolísání mezi vzory tvrdými a měkkými a další nedůslednosti v krácení kmenové samohlásky u substantiv rodu ženského. To znamená, že se u některých substantiv derivují navíc tvary nesprávné, např. vedle hutníkovi i doutníkovi, vedle náležitého pytli i nesprávné stoli, vedle skálou i skalou. Tímto řešením však není činnost systému nijak negativně ovlivněna. Jen ve vzácných případech se může vyskytnout nepříjemná homonymie tvaru derivovaného s tvarem některého jiného slova. Např. k substantivu prsť bude navíc vytvořen i tvar prstě podle vz. píseň. V tomto případě by se mohlo stát, že např. výskyt tvaru prstě bude systémem zaznamenán jako jeden z výskytů [290]slova prsť, nikoli jen jako výskyt slova prst. Podobné chyby budou ovšem velmi vzácné, protože není pravděpodobné, že by se obě slova vyskytla v odborných textech jednoho oboru. Tato homonymie vytváří ostatně jen tzv. šum druhého typu, přináší nežádoucí informaci, nevede však k potlačení informace požadované. V ostatních případech dojde jen k tomu, že se v konkordanci systému typu ASIMUT budou zbytečně hledat tvary, které tam být nemohou, protože se v žádném textu nevyskytují. Toto hledání činnost systému jen nepatrně zpomalí ve srovnání se zdržením, které by způsobilo zpracování zvláštních tvarů slova.

Ani naznačeným postupem se ovšem nezbavíme všech výjimek a zvláštností. Proto musel být algoritmický popis zkombinován s hledáním v seznamech slov. Směřovali jsme k tomu, aby se algoritmicky zpracovala jen slova častější a běžná a slova méně častá aby byla uvedena v seznamech. Např. algoritmicky se tedy řeší zachycení sekundárních kmenů pravidelných typů matka - matek; nepravidelnosti typu pomlka - pomlk jsou uvedeny ve zvláštních seznamech. Zpomalení hledání v seznamech může být značně omezeno, aplikujeme-li tuto metodu na oblast úzce specializovanou. Algoritmus v kombinaci se seznamy postihuje téměř celou českou morfologii (včetně nepravidelností a výjimek). Můžeme tedy zpracovávat texty všech oborů s tím, že se ze seznamů vypouštějí slova, jejichž výskyt ve zpracovávaném souboru textů není pravděpodobný. Takovéto omezení seznamů nepravidelností je snadné, nevyžaduje složité úpravy programu a může být provedeno v přímé závislosti na oboru, pro který má být systém použit.

2. Složitější úlohy řeší morfologická analýza v systému automatického indexování metodou MOZAIKA. Tento systém je určen k automatickému indexování odborných textů, výsledkem jeho aplikace je seznam klíčových slov (terminologických indexů), který charakterizuje tematiku analyzovaného textu a v dalším rešeršním zpracování může sloužit jako jeho selekční obraz.

K řešení tohoto úkolu využívá MOZAIKA celé řady metod analýzy textu, např. slovotvorných, morfologických, syntaktických, statistických a pozičních. Morfologická analýza je tedy jenom částí, byť velmi důležitou, celého systému automatického indexování (Kirschner, 1983). Jejím úkolem je identifikovat v textu tematicky závažná slova, převést flexívní tvary těchto slov na tvar základní (tzv. slovníkový) a přiřadit jim morfologické, popř. i jiné charakteristiky.

a) Otázka, která slova lze považovat za tematicky závažná, se řeší na základě empirického zjištění. Jde o to, že odborný vědeckotechnický text redukovaný do posloupností nominálních skupin minimálně ztrácí informace o daném tématu. Terminologie většiny odborných textů je prezentována souborem jmenných spojení, v němž se kromě substantiv uplatňují adjektiva, omezený počet předložek a ve výjimečných případech příslovce. Z těchto poznatků vyplývá, že v morfologické analýze jde především o identifikaci substantiv a adjektiv.

Ve flexívních jazycích morfologická analýza řeší tento úkol pomocí slovníků a různých seznamů, např. slovníků slovních tvarů, slovníků slovních základů, seznamů sufixů, tabulek koncovek apod.; ty mohou být použity buď pozitivně, tzn. slova identifikovaná příslušným seznamem jsou vybrána, nebo negativně, tj. identifikované jazykové jednotky jsou z výběru vyloučeny.

Metoda MOZAIKA používá k těmto účelům seznamu koncových segmentů slov. Na základě předběžného empirického a statistického šetření byla délka jednotlivého segmentu stanovena na čtyři znaky. Tyto čtyřznakové segmenty, i když se nedají lingvisticky interpretovat vždy jako slovotvorné přípony nebo koncovky, obsahují optimální počet identifikačních a systémových informací.

Hlavní část seznamu tvoří koncové segmenty slovníkových tvarů slov, vybraných na základě poznatků o tvoření slov. Jde především o produktivní zakončení substantiv a adjektiv používaných při tvoření technické a odborné terminologie, [291]např. názvy nástrojů na -ič, -ač, -ička, -ačka, -dlo apod., názvy činností a procesů na -ace, -aní, -ení apod., názvy vlastností na -ost, -ita apod., názvy přístrojů na -skop, -metr apod., adjektiva na -tivní, -ční, -ický apod.

Tento seznam je dále doplněn koncovými segmenty obsahujícími zakončení nepřímých pádů těchto slov. Při identifikaci slov plní seznam koncových segmentů úlohu pozitivní: analyzovaná slova v případě kladného výsledku porovnání se seznamem segmentů postupují k dalšímu zpracování.

b) Důležitou částí morfologické analýzy je procedura lemmatizační, při níž se slovní tvary identifikované v textu na základě čtyřznakového koncového segmentu převádějí na tvar základní (pokud se vyskytly v některém jiném tvaru), zprav. nom. sg. u jména, infinitiv u slovesa.

Postup při převádění slova v nepřímém pádě na základní tvar (podobu) se může automaticky realizovat různě; (1.) podle počtu znaků (mohou to být jeden znak, dva, tři nebo čtyři znaky), které je třeba přidat ke zbytku analyzovaného slova po odtržení čtyřznakového segmentu tak, aby vznikl tvar základní, (2.) podle druhu změn, které je nutno vzít v úvahu při vytváření tvaru základního z tvaru jiného: u některých substantiv je třeba přihlédnout např. k měkčení v nepřímém pádě (o návrzích - návrh, na nosnících - nosník), ke změně kmenové samohlásky (dolech - důl, vozech - vůz) nebo i k dvojímu typu změn, např. k měkčení a vynechání pohyblivého e v případech jako zvoncích - zvonek apod. Lemmatizace u adjektiv je podstatně jednodušší.

c) Při morfologické analýze se tvarům vybraných lexikálních jednotek přiřazují navíc také určité informace, a to o slovním druhu, rodu, čísle a pádě slova. Flexívní tvar je sice převeden na tvar základní, ale informace o tom, v jaké formě se slovo vyskytlo v textu, se zachovává. Tato informace je jednoznačná v případech jako těžba, kombajnem, kapacitu apod. Avšak v celé řadě jiných případů zůstává homonymní, neboť na základě analýzy izolovaného slova není možno určit, o jaký pád jde, např. u substantiv typu napětí, dobývání, nebo určit rod, číslo a pád u některých adjektiv typu intenzívní. V podobných případech je výsledkem automatické analýzy seznam všech možných pádů nebo všech možných kombinací rodu, čísla a pádů.

Kromě toho je u koncových segmentů substantiv při automatické analýze uveden určitý druh lexikálně sémantické informace: substantiva jsou rozdělena do několika kategorií v závislosti na tom, mohou-li být považována za tematicky závažná, i když se vyskytují samostatně, nebo se za tematicky závažná považují jen v případě, jsou-li rozvita. Slova typu mikroskop, multiplexar, kombajn mohou vystupovat samostatně, slova jako vývoj, problém, metodika potřebují být rozvita, srov. vývoj těžby uhlí, ekologický problém, metodika výchovy kádrů. Substantiva jako kysličník potřebují rozvít shodným přívlastkem zprava — kysličník uhličitý, substantiva jako svařování bývají rozvita neshodným přívlastkem v instrumentálu — svařování laserem apod.

Všechny tyto informace jsou pak v rámci metody MOZAIKA využity v analýze syntaktické; jednoduchá syntaktická pravidla tu spojují jednotlivé části víceslovných termínů.

Průběh celé analýzy lze ukázat na příkladu tvaru MIKROSKOPECH:

(1.) Oddělí se koncový segment -PECH a ověří se, zda se vyskytuje v seznamu segmentů.
(2.) Podle informace v seznamu segmentů se zjistí, že analyzované slovo je pravděpodobně tvar substantiva mužského rodu v lokále plurálu; pro vytvoření základního tvaru je třeba ke zbylému „kmeni“ MIKROSKO- přiřadit jedno písmeno -P (jako v případě PŘÍKO-PECH, POKLO-PECH aj.).
(3.) Vytvoří se předpokládaný základní tvar MIKROSKOP (popř. PŘÍKOP, POKLOP).
(4.) Od předpokládaného základního tvaru se znovu oddělí čtyřznakový segment MIKRO-SKOP (popř. PŘ-ÍKOP, PO-KLOP) a ověří se, je-li obsažen v seznamu segmentů a odpovídá-li informace tam uvedená základnímu tvaru.
[292](5.) V případě slova MIKROSKOP je ověření pozitivní (slova PŘ-ÍKOP, PO-KLOP však budou vyřazena).

Výsledkem analýzy je pak tato informace: Slovo MIKROSKOP je substantivum mužského rodu, v textu se vyskytlo v lokále plurálu; jeho lexikálně sémantická informace dodává, že jako potenciální tematicky závažný termín může být do souboru indexů vybrán i v tom případě, když se vyskytne bez rozvití.

Morfologická analýza v systému typu MOZAIKA je v mnoha směrech jednodušší než v systému ASIMUT. Mnoha problémům spojeným s homonymií koncovek se tento systém vyhýbá tím, že pracuje s čtyřznakovými koncovými segmenty a ty obsahují nejen koncovku, ale často i část kmenu.

Při automatické analýze se spolehlivě identifikují slovní druhy a vybírají se substantiva a adjektiva. Případy, kdy dochází k chybnému určení slovního druhu a kdy se např. z příslovce relativně vytvořilo substantivum relativeň mylnou analogií s úrovně - úroveň, jsou ojedinělé.

Homonymie nastává uvnitř jednotlivých slovních druhů, zvl. u tvarů substantiv a adjektiv; např. segment -STEM může odpovídat instr. singuláru substantiv rodu mužského i středního (nerostem, místem) nebo dat. plurálu rodu ženského (rychlostem). Tyto případy se však většinou řeší při lemmatizaci; chybně vytvořený základní tvar (podobně jako základní tvar slova, které není považováno za tematicky závažné) se v seznamu segmentů nenajde, a proto se z další analýzy vyřadí.

V případech, kdy čtyřznakový koncový segment k identifikaci vybraného slova nestačí, můžeme postupovat v analýze slova zprava doleva systémem restrikcí, který stanoví, jaké znaky nebo skupiny znaků se musí vyskytovat nebo se nesmějí vyskytovat před analyzovaným koncovým segmentem (např. když má být jako potencionální index vybráno slovo DETE-KTOR, ale nikoli INSPE-KTOR, RE-KTOR apod., je vhodné pracovat s restrikcí v tom smyslu, že např. koncovému segmentu nesmí předcházet PE, RE).

Pokud by omezení pomocí restrikcí byla příliš složitá, lze použít negativního slovníku a nežádoucí slova převést do seznamu. Důležitým prostředkem vyloučení možné homonymie je do značné míry sám odborný text, na nějž se systém aplikuje. Lze předpokládat, že celá řada slov, u nichž by mohlo k homonymii docházet, se v odborném textu vůbec nevyskytne (srov. též Těšitelová, 1966). Homonymie některých případů, jako technik - technika, mechanik - mechanika, den - dno zůstává zatím nevyřešena. Rozlišení, o které slovo jde, není u některých tvarů možné, vycházíme-li jen z analýzy izolovaného slova.

3. Relativně nejúplnější zpracování morfologie vyžaduje morfologická analýza češtiny, která je nutným východiskem při přípravě složitějších automatických systémů, jako je např. strojový překlad nebo počítačový model porozumění textu pro účely automatického zodpovídání dotazů, sestavování nebo aktualizace báze znalostí (v podobě sémantické sítě), dialog s expertním systémem nebo s tzv. inteligentním robotem apod. Pro tyto účely byla morfologie češtiny také už podrobně zpracována (viz zejm. Weisheitelová - Králíková - Sgall, 1982) a byl připraven i obecný tvar lexikálního hesla (nejen pro češtinu, ale se zřetelem k automatickému překladu také pro angličtinu a ruštinu). V současné době se připravuje všestranný popis českého tvarosloví (J. Hajič, připr. disertační práce) metodou obdobnou známému postupu Zaliznjakovu (1977) a dovedenou až do podoby počítačového programu; takové zpracování má zásadní význam jak pro teoretický popis češtiny, tak i pro počítačové aplikace, pro něž může sloužit jako zcela obecný základ, vhodný jak pro analýzu, tak pro syntézu implementovatelnou v počítačích.

Jiným perspektivním cílem morfologické analýzy je snaha slovník ukládaný do počítače omezit na minimum, tzn. na seznam výjimek; k tomu účelu se morfologická [293]analýza zpracovává tak, aby všechny pravidelné a produktivní jevy byly zachyceny pravidly obecné procedury, která se nepotřebuje obracet k lexikálnímu seznamu. Proto byl vypracován podrobný popis českého tvarosloví s uvedeným zaměřením. Taková analýza se však musí vyrovnat se všemi slovními druhy, vzory a tvary, včetně výjimek a zvláštností. Má být univerzální, použitelná pro všechny druhy textu; teprve při jednotlivých aplikacích přichází v úvahu rozhodování, co do systému ještě zahrnout a od čeho odhlédnout. Je tedy pochopitelné, že homonymie většiny tvarů je z tohoto hlediska značně vysoká, až na některé zmíněné jednoznačnosti a pravidelnosti, jako je tomu u koncovky -ý, přípony -yně, -iště apod.; např. k výše popsané bohaté homonymii koncového -ě přibývá ještě koncovka lok. sg. vz. hrad, žena i město, nom. pl. vz. píseň apod.

Pravidla pro takovou automatickou analýzu mají následující podobu:

Užití takové úplné analýzy při dnešních technických možnostech přichází v úvahu patrně pro úzce omezenou oblast odborných textů, která dovolí výrazné omezení slovní zásoby, a tedy i vyloučení značné části pravidel.

Dalším závažným problémem společným všem automatizovaným systémům pracujícím s přirozeným jazykem je podoba vstupních dat. Problém automatického vstupu dat do počítače (optického snímání, akustické analýzy) není zatím vyřešen a ruční příprava vstupu je příliš pracná. Velkým přínosem pro automatizované informační systémy by bylo využití textů z automatické fotosazby, popř. textů jiného druhu uložených na počítačových médiích, např. na magnetické pásce nebo na disku.

[294]Jak se však ukazuje, ani tato skutečnost problém vstupních dat zatím zcela neřeší. Podle dosavadních zkušeností víme, že texty uložené na magnetické pásce a tištěné běžnými tiskárnami počítačů jsou často bez diakritických znaků. V experimentální variantě systému MOZAIKA byl zápis diakritických znamének linearizován, tzn., že např. zakončení -čí bylo zapsáno jako C*I/, -ší jako S*I/, tzn. háček se zapisoval hvězdičkou, délka samohlásky lomítkem.

Použití redukovaného znakového souboru ve výstupních textech z počítače (jednotná redukovaná abeceda běžných tiskáren má k dispozici 32 velkých písmen v latince) vede, kromě jiného (podrobněji Cejpek, 1984), k velké ztrátě informace a komplikuje automatické zpracování. V textech bez diakritik celkový počet homonymních případů značně vzrostl.

Se ztrátou diakritických znaků mizí např. jeden z nejzřetelnějších rysů češtiny, že slova zakončená na -ý jsou převážně adjektiva nebo se jako adjektiva skloňují (v textech bez diakritik to mohou být také substantiva v plurálu rodu ženského nebo mužského typu ženy, hrady). Analýza na základě koncového segmentu nemůže zabránit tomuto růstu homonymie. K homonymii pak dochází i mezi jednotlivými slovními druhy, např. mezi substantivem a slovesem: segmentu -NAVA může odpovídat tvar uznává i únava, segmentu -ERIT buď prověřit, nebo siderit, yperit. Při automatické analýze se nerozliší adjektivum a adverbium, protože např. segmentu -ERNE může odpovídat buď průměrně nebo průměrné. Homonymie vzniká mezi substantivem a adjektivem v případech jako elektrárna - hospodárná, překladači - překládací, měřiči - měřící apod. Homonymie se zde rozrůstá o další varianty. Např. k zmíněným případům homonymie segmentu -STEM přibývají v textech bez diakritik další případy: např. substantivum v nominativu systém a adjektivum v lokále sg. rodu mužského nebo středního — chromistém.

Rozlišení všech těchto homonymních případů vyžaduje zavedení dalších omezení a práci zbytečně komplikuje. Zkušenosti s experimentální podobou automatických systémů ukazují, že se těmto komplikacím lze vyhnout, budou-li systémy aplikovány na plnohodnotný vstupní text, tzn. text se všemi diakritickými znaménky, jehož užívání moderní výpočetní technika umožňuje.

Závěry: Automatické metody analýzy a zpracování textu v jazycích flexívního typu (nám jde o zpracování češtiny) se jen stěží obejdou bez zpracování morfologie. Složitost morfol. analýzy souvisí s potřebami jednotlivých zpracovávaných systémů.

Nejjednodušší morfologické údaje stačí pro systémy automatického vyhledávání textových informací (např. ASIMUT), kde jde jen o rozpoznání slovního druhu a typu skloňování a časování u vstupního tvaru, utvoření potřebných kmenů a vytvoření všech tvarů. Složitější zpracování morfologie je nutné pro systémy automatického indexování (např. MOZAIKA), které vyžadují přiřazení morfologických charakteristik u flexívních tvarů a převedení těchto tvarů na tzv. tvar základní. Velmi podrobné zpracování morfologie vyžaduje morfologická analýza, která je součástí složitějších automatických systémů (např. strojový překlad, sestavování nebo aktualizace báze znalostí, dialog s tzv. inteligentním robotem ap.), kde je třeba řešit i tak složité úlohy, jako je např. nalezení všech částí složených tvarů slovesných apod.

Při zpracovávání morfologie češtiny pro tyto účely se zjistilo, že nestačí vycházet jen z gramatik analyzovaného jazyka (počítají s jazykovým povědomím uživatele), nýbrž že je třeba na základě práce s texty a retrográdními slovníky znát celou řadu dalších jevů a stanovit některá přesnější kritéria pro jejich užívání. Ukázalo se, že v české morfologii existuje řada pravidelností, které její automatické zpracování umožňují (např. u koncovek adjektiv), ale i celá řada výjimek a zvláštností (např. u alternací v kmenech), které toto zpracování komplikují. Je však zřejmé, že při omezení se na texty odborné lze připravit adekvátní zpracování automatické analýzy morfologie češtiny.

[295]LITERATURA

BELONOGOV, G. G. - DAVYDOVA, J. M.: O vozmožnosti opredelenija grammatičeskich klassov po bukvennym kodam slov. Naučno-techničeskaja informacija, 8, 1967, s. 20—26.

CEJPEK, J. - HAJIČOVÁ, E. - KIRSCHNER, Z. - KRÁLÍKOVÁ, K. - PASTOREK, K. - SGALL, P.: Automatické vyhľadávanie informácií z úplného textu. Bratislava 1982.

CEJPEK, J.: Znakový repertoár a jeho řazení v automatizovaných informačních systémech. In: Lingvistické přístupy v informatice. Praha 1984, s. 7—14.

KIRSCHNER, Z.: MOSAIC — A method of automatic extraction of significant terms from texts. Explizite Beschreibung der Sprache und automatische Textbearbeitung X. Praha 1983.

MLUVNICE ČEŠTINY, 1, 2. Praha 1987.

SGALL, P. - WEISHEITELOVÁ, J.: K deklinaci českých substantiv ženského rodu. AUC. SlavPrag X, Philol. 1—3, 1968, s. 9—18.

SGALL, P.: The role of linguistics in the development of computers. PSML, 9, 1986, s. 125—132.

SLAVÍČKOVÁ, E.: Retrográdní morfematický slovník češtiny. Praha 1975. Zkr. RS.

TĚŠITELOVÁ, M.: O morfologické homonymii v češtině. Rozpravy ČSAV, 76. Praha 1966.

TĚŠITELOVÁ, M. a kol.: Kvantitativní charakteristiky současné češtiny. Praha 1985.

TĚŠITELOVÁ, M. - PETR, J. - KRÁLÍK, J.: Retrográdní slovník současné češtiny. Praha 1986.

WEISHEITELOVÁ, J. - KRÁLÍKOVÁ, K. - SGALL, P.: Morphemic analysis of Czech. Explizite Beschreibung der Sprache und automatische Textbearbeitung VII. Praha 1982.

ZALIZNJAK, A. A.: Grammatičeskij slovar’ russkogo jazyka. Moskva 1977.

R É S U M É

On automatic treatment of Czech morphemics

As a highly inflectional language, Czech requires a sophisticated treatment of its morphemics for practically every computerized language processing system. The degree of complexity of morphemic analysis (or synthesis) depends on the given application:

1. for the aims of text retrieval an „analysis by synthesis“ may be suitable, cf. the system ASIMUT: all forms of the words included in the user’s requirement are generated and confronted with a register;

2. with automatic indexing lists of end segments of terminological word forms are the core of the retrieval system, cf. the method MOSAIC;

3. in full-fledged analyses (for machine translation, or for natural language understanding) it is desirable to have a procedure working without a full dictionary, where the prototypical end segments determine the output values and only specific cases are handled lexically.

All these systems, most of which have to be based on a complex morphemic analysis (and synthesis), are illustrated by examples taken from our experience with implemented processing of Czech texts.

[1] Např. i v Mluvnici češtiny 2 se stejně jako v mluvnicích starších uvádějí jen příklady nebo formulace jako „dloužení je závazné pro určitá substantiva mužského rodu“ (s. 279), „k alternacím dochází i uvnitř základu některých jmen“ (s. 308) apod. Podobně v části o alternacích (s. 308) se uvádějí zakončení -ek, -en, -el jako typická pro vypouštění pohyblivého e; ale i zde existují výjimky, např. u substantiv oblek, úsek, průsek, výsek, česnek apod. U zakončení -en se pohyblivé e dokonce častěji nevypouští (v RS doloženo 36 takových substantiv, např. kmen, pramen, kořen, křen, lupen, pupen apod. a 19 takových, která e vypouštějí, např. květen, červen, srpen apod.). Podobná je situace u zakončení -el (v RS doloženo 43 substantiv, kde se pohyblivé e nevypouští, např. chmel, panel, tunel, model, popel, povel, hotel apod., a jen několik, která e vypouštějí: kotel, úhel, uzel, živel).

[2] Pro ruštinu bylo např. zjištěno, že poměrně vysoké přesnosti v určení slovního druhu, popř. i typu skloňování, lze u slov dosáhnout již při analýze dvouznakových zakončení; tří- a čtyřznaková zakončení (v počtu 1137 a 3184) se používají pro upřesnění výsledků analýzy, zatímco pětiznaková zakončení umožňují jednoznačně určit prakticky každé slovo v textu (viz Belonogov a Davydovová, 1967).

[3] Tento slovník byl při zpracovávání češtiny pro automatizované systémy donedávna jedinou pomůckou svého druhu. Retrográdní slovník Těšitelové - Petra - Králíka (1986) má řadu zásadních předností. Uvádí absolutní frekvenci výskytu a uspořádání slovních tvarů (slovoforem), nepracuje již se slovy zastaralými, např. mykadlo, pušťadlo, a uvádí řadu slov novějších, např. měřidlo, tužidlo, pařeniště, sportoviště, štěrkoviště. Skutečnost, že zpracování vycházelo ze souboru textů, má ovšem za následek, že se do slovníku nedostala některá slova, s nimiž jsme se při vytváření automatizovaných systémů setkali, jako spínadlo, zdvihadlo nebo odbytiště. Z hlediska potřeb počítačového zpracování češtiny užíváme tedy oba slovníky.

[4] Při úplné morfologické analýze češtiny bez slovníku kmenů, kterou připravuje např. P. Pognan z laboratoře CERTAL v Paříži, už nebude stačit tak jednoduché řešení; přibude tu homonymie s tvarem instrumentálu sg. substantiv ženského rodu zakončených na ň, např. jabloní, básní apod., a s tvarem 3. os. sg. sloves zakončených v infinitivu na -nit, např. naplní, změní apod.

[5] Rozlišení slabičného r, l od plně souhláskových variant může poněkud zjednodušit teoretický popis morfologie, ale nedá se přímo uplatnit v automatickém zpracování textu.

Slovo a slovesnost, ročník 49 (1988), číslo 4, s. 285-295

Předchozí Jasňa Šlédrová: Některé podmínky úspěšné realizace záměru v řečové činnosti

Následující Igor Němec: Nová historická mluvnice češtiny

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: