Milena Hnátková
[Rozhledy]
The tagging of phraseological units and idioms in the Czech National Corpus with the aid of the Dictionary of Czech phraseology and idiomatics
Elektronický textový korpus se stal v současnosti bohatým víceúčelovým zdrojem dat a neslouží jen potřebám komputační lingvistiky. Rozumíme jím rozsáhlý soubor elektronicky uložených jazykových dat, který je strukturovaný (lze v něm vyhledávat podle řady kritérií) a někdy i označkovaný. Korpusová lingvistika je odvětví lingvistiky, které systematicky pracuje s korpusem a jeho nástroji. Provádí sběr dat, převádí korpusová data do unifikované podoby (standardizace) a případně i značkuje korpusy podle toho, jak se má daného korpusu využívat (konkordance, lemmatizace).
Neřešený zůstává stále problém víceslovnosti, například některých slovesných tvarů nebo frazémů. Lemmatizátor dosud nedokáže určit víceslovné jednotky, vždy se [118]omezuje na hranice jediného tvaru. Některé přístupy mylně předpokládají, že v libovolném frazému (viz definici níže) lze vždy a standardním způsobem určit význam jeho komponentů. To ovšem kontrastuje s hypotézou sémantické nedělitelnosti frazémů a vede k neoprávněnému vynalézání synchronně neexistujících slov nebo významů (kutě – jít na kutě, holičky – nechat někoho na holičkách).
Definujme nejprve klíčové pojmy, jichž budeme v textu používat. Frazém je ustálená kombinace slov se samostatným významem, kde přinejmenším jeden z komponentů je omezen právě na tuto kombinaci v daném významu a funkci (srov. Slovník české frazeologie a idiomatiky, red. F. Čermák, J. Hronek, J. Machač; dále SČFI). Jde o stereotypní, situačně vázané nevětné obraty a věty. Idiom je ustálené spojení slov osobité pro jistý jazyk, zpravidla nepřeložitelné. Kritériem vymezení frazému a idiomu je ustálenost. Frazeologie je nauka o ustálených obratech, slovních spojeních a rčeních. Frazeografie, nová oblast v aplikované jazykovědě, je oblast aplikované frazeologie a idiomatiky, zabývající se popisem frazémů a idiomů a principy tohoto popisu. Idiomatika je nauka o idiomech.
Cílem naší práce je nalézt programové prostředky pro automatické vyhledávání frazémů a idiomů v textech Českého národního korpusu s pomocí SČFI. Automatickou konverzí dat ze slovníku jsme získali seznam frazémů, sloužící jako podklad pro program vyhledávání a značkování frazémů. Tento seznam musí projít podrobným lingvistickým zpracováním na základě dat v korpusu.
SČFI zaznamenává ustálenou celonárodní idiomatiku a frazeologii současné doby (druhá polovina 20. století). Slovník obsahuje komplexní lexikografický popis frazeologie a idiomatiky českého jazyka a je rozčleněn do tří relativně samostatných svazků. První svazek představují Přirovnání (1983). Nominální, adverbiální a gramatické frazémy (předložky, spojky a částice) tvoří náplň druhého svazku Výrazy neslovesné (1988). Třetí svazek obsahuje Výrazy slovesné (1994). Každý svazek je opatřen sémantickým rejstříkem a studií o příslušném strukturním typu.
Za idiomatický a frazeologický výraz se v SČFI považuje ustálená a minimálně dvouslovná kombinace libovolného slovního druhu s jiným (případně kombinace stejných slovních druhů), která je charakterizována tím, že aspoň jeden její člen je v tomto významu nebo funkci omezený pouze na tuto kombinaci. Druhým rysem je někdy neobvyklá přenesenost, sémantický posun takového spojení.
Slovník obsahuje hesla dvojího výkladového typu: heslo běžné a heslo okrajové. Struktura běžného výkladového hesla:
– Záhlaví: | |
Část slovesná: | míto hlavu v pejru/ve smutku |
| nevěděto, kde [mu] hlava stojí |
Část neslovesná: | (S/A/V) od á (až) do zet |
| při (jisté) dávce štěstí n. s jistou dávkou štěstí (V) |
Přirovnání: | zmizeto/ztratito se j. kapka v moři |
[119]Poznámky: Index o označuje ohýbaný tvar nebo lexikálně (i morfologicky) obměnitelný výraz. U sloves označuje většinou možnost všech tvarů slovesa, u substantiv a adjektiv označuje pouze změny v čísle a rodě, ne v pádě. Proloženě tištěné je řadicí slovo, které určuje abecední pořadí hesla. Znak / odděluje paradigmatické varianty hesla, u delších tvarů jsou varianty odděleny značkou n. (nebo). V hranatých závorkách se vyskytuje kontextově proměnná část hesla, kterou nelze převést na neutrální tvar. V kulatých závorkách jsou uvedeny vypustitelné syntagmatické složky hesla, závorky mohou obsahovat buď konkrétní slovo (do (nejdelší) smrti na něco nezapomenout), nebo zástupné obecné slovo[1] (chrlit (na někoho) oheň a síru). Kulatá závorka se používá i pro označení příslušného typu vedlejší věty ap. (dát někomu na srozuměnou (že), mít trhání (Inf)). Valence slovesa je naznačena tvary neurčitých zájmen a adverbií nebo předložkami.
V části neslovesných frazémů je v záhlaví hesla uvedena atributivní a adverbiální platnost heslových frazémů (syntaktická funkce frazému naznačená symbolem pro řídící slovní druh, případně sponu), tj. slovní druhy, na nichž příslušný frazém syntakticky závisí: S – substantivum, A – adjektivum, V – sloveso, Adv – adverbium; složený symbol (S/být) naznačuje, že jde o přívlastek nebo jmenný přísudek ((S/být) jedna báseň, všemi mastmi mazaný). Tento údaj se vyskytuje za heslovým frazémem, je-li pozice závislá jen na aktuálním členění, a vpředu, je-li pozice závazná (neshodné atributy v genitivu).
– | Stylová charakteristika: (kol; nepřízn)[2] | ||
– | Gramatická charakteristika: 0 ot, neg, pas, imp, imp neg | ||
| Negativní vymezení – zkratkami se uvádí řada gramatických rysů, které výraz ve svém běžném užití nemívá. | ||
– | Formy transformací frazémů: | ||
| Odkazy na výrazy neslovesné | Nom čistá/jasná hlava | |
|
| Adj roztrhaný na cucky | |
|
| Adv v cuku letu | |
| Odkaz na svazek přirovnání | Komp být j. dřevo | |
| Odkaz na slovesný výraz | Verb mít něco v běhu | |
| Propozicionalizace | Prop Neví, kde mu hlava stojí. | |
| Pronominalizace | Pron něco (dobrého) na zub | |
| Prepozicionalizace | Prep pod pláštíkem něčeho | |
– | Popis významu a kontextu: | (Člověk v důsledku problémů, vlastní chyby ap.:) mít … | |
– | Další údaje: | Pýř, pýr, pejr = žhavý popel … | |
(o úzu, etymologii a jiných souvislostech) | Možné též v pl. | ||
– | Synonyma: | S mít – starosti, litovat … | |
– | Opozita: | A být na vrcholu blaha, … | |
– | Ekvivalenty: | Cf není mu do smíchu, být … | |
– | Cizojazyčné ekvivalenty: | ||
| anglický ekvivalent | A be all of a tizzy, be worried sick | |
| [120]německý ekvivalent | N einen dicken Kopf haben | |
| francouzský ekvivalent | F se faire des soucis, s’en faire | |
| ruský ekvivalent | R ! chvatat’sja za golovu | |
(! uvádí překladový ekvivalent jiné obecné frazeologické struktury) | |||
Druhým typem hesla je odkazové heslo (odkazuje řidší variantu na variantu běžnější):
brát si něco do hlavy viz vzít si něco do hlavy
balík peněz viz pytel peněz
Zcela novým typem jsou hesla s abstraktními substantivy:
balanc (=rovnováha)
Obj: IN udržet b. DUR držet/udržovat b., mít b. TERM ztratit b.
Toto heslo sdružuje kombinace slovesa a substantiva abstraktního. Obj registruje ustálené frazémy, v nichž je dané substantivum součástí široce chápaného predikátového spojení = objekty, předměty tvořící hlavní jmennou náplň přísudku. Frazémy jsou rozděleny do tří obecných fází. Frazémy zařazené do inchoativní fáze (IN) zavádějí platnost substantiva, v durativní fázi (DUR) frazémy vyjadřují trvání děje nebo stavu, v terminativní fázi (TERM) ukončují platnost substantiva.
Při vyhledávání frazémů v textu nejde jen o nalezení příslušného řetězce slov uvedeného jako záhlaví. Je nutné uvažovat např. u slovesných frazémů různé tvary slovesa (vid, změna předpony, čas, osoba), dále umožnit změnu čísla a pádu u některých slov, případnou záměnu i lexikálního obsazení frazému, zápor a v neposlední řadě i slovosled – např.: balito (si)/sbalito (si) kufry, ale podobný význam mají vyjádření: sbalit si kufr, zabalit kufry (kufr), nebalit kufry, mít sbaleny kufry.
Není možné, aby při „ručním“ zadávání všech variant člověk obsáhl všechny možné kombinace a změny. Prostředek k vyhledávání frazémů musí pracovat na morfologicky označkovaném textu (korpusu). Měl by poskytovat možnosti co nejpřesnějšího určení výskytu frazému a přitom se neomezovat jen na některé varianty, ale případně umožňovat nalezení různých obměn použití frazému, popřípadě i jiné zobecnění.
Morfologické programy umožní generování všech možných tvarů heslového záhlaví a částečně vyřeší problém se zástupnými výrazy. V morfologicky označkovaném textu se např. při zadání řetězce „špatná nálada“ najde špatná nálada i horší nálada, ale v jiných případech bude rozlišení, zda se jedná o frazém, velice obtížné. Například není jednoznačné, zda ve větě Lehl si opilý pod obraz boží jde o frazém opilý pod obraz boží nebo o opilého člověka, který leží pod obrazem božím.
Před samotným vyhledáváním jednotlivých frazémů zadaných SČFI musí seznam frazémů (řetězců) projít podrobným ručním zpracováním, kdy je třeba odstranit některé nejednoznačnosti, např.:
– Rozlišit, kdy deiktický výraz funguje jako proměnná (srovnej: něco (dobrého) na zub a udělat něco za tepla).
– Určit zástupná slovesa (určit, co zastupují zástupná slova, viz poznámka 1).
– V některých případech můžeme naopak konkrétní lexikální jednotku zobecnit. Na[121]příklad v textu se vyskytuje nejen prodat něco za babku, ale i vyjádření typu prodávat, rozprodávat, dát, mít, získávat, pořídit, koupit něco za babku. Jestliže heslo zobecníme na tvar: dělat něco za babku, kde dělat a něco jsou zástupná slova, naleznou se existující varianty frazému.
– Dále je nutné určit potenciálně nesouvislé řetězce, kdy je možný volný slovosled. Jednotlivá slova ze záhlaví hesla se nejenom nemusejí vyskytovat v uvedeném pořadí (změna slovosledu), ale „mezi“ nimi se ve větě mohou vyskytovat jiné větné členy. Při manuálním procházení slovníku bude asi výhodnější označit pouze ty skupiny slov v hesle, které se ve větě mohou vyskytovat jenom v tomto uvedeném pořadí za sebou bez dalších vsunutých slov. Bylo zvoleno obecné řešení: Dejme tomu, že písmena a b c d představují jednotlivá slova hesla (např. malovat něco černými barvami) a pořadí slov c d (černými barvami) musí být zachováno. Označení aXbXcd nejen říká, že se mezi slovy a, b a c mohou ve větě vyskytovat jiná slova, ale povoluje pořadí slov: cdXaXb (černými barvami malovat něco), aXcdXb (malovat černými barvami něco), bXcdXa (něco černými barvami malovat), cdXbXa, aXbXcd, bXaXcd, kde X označuje možný výskyt dalších slov, která nepatří do frazému nebo idiomu.
Tento postup nám umožní nalézt různé varianty základního hesla, ale u těchto nesouvislých frazémů mohou nastat problémy s jeho identifikací. Při vyhledávání hesel mít hlavu, mít hlas, mít figuru jsou označeny i falešné výskyty, např.:
Byt by měl nejraději zařízený čistým bruselem a hlavu ostříhanou na skina.
Měla hlavu v oblacích.
Máme všechny důvody pozdvihnout proti tomu hlas.
… by měl bílý za figuru tři pěšce …
– Je nutné určit platnost negativních morfologických omezení, která jsou uvedena v citovaném slovníku. Např. heslo dělat/udělat z něčeho aféru s příliš širokou negativní gramatickou informací 0 ot, imp, 1.sg a pl by neumožňovalo nalézt potenciální výskyty:
Nedělejme z toho aféru.
Přece z toho nedělám aféru.
Neudělal z toho náhodou velkou aféru?
– Při „osamostatňování“ jednotlivých variant frazému v hesle ze slovníku je nutné řešit potenciální problém identifikace členů disjunkce.
Příklad: V hesle mít nabroušenou hubu/nabroušený/nabroušenej jazyk odděluje první výskyt znaku / celé části: nabroušenou hubu, nabroušený jazyk a nabroušenej jazyk. Oproti tomu v hesle poezie/kouzlo domova znak / odděluje pouze slova poezie a kouzlo.
Pro vyhledávání frazémů bylo nejprve nutné vytvořit konverzní programy pro zpracování elektronické podoby SČFI, navrhnout způsob vyhledávání jednotlivých hesel v korpusu a podle toho určit, které informace uvedené v SČFI lze využít k následujícímu zpracování. Automaticky byla vybrána jednotlivá záhlaví hesel spolu s negativní gramatickou informací.
[122]Po osamostatnění všech variant záhlaví vznikl seznam hesel spolu s negativní morfologickou informací a syntaktickou funkcí frazému. Na základě zjištění, že část hesel nevyžaduje morfologické údaje o jednotlivých částech frazému (zejména předložkové fráze), bylo provedeno poloautomatické rozdělení hesel na
a) neohebná a souvislá, tj. sousloví, která se ve větě vyskytují v nezměněném stavu. Jedná se o neslovesné frazémy bez zástupných slov se závislostí na S, A nebo V (ale ne s S/být), vyhledávání probíhá podle formy slov (není nutná morfologická analýza).
Příklad: | [dříve nebo později] (V) |
| [na první pohled] (S/V/A) |
| [se zatajeným dechem] (V) |
b) ohebná a nesouvislá,[3] která budou vyhledávána v morfologicky anotovaném textu.
Příklad: | [(pouhé) kolečko ve stroji] {pl; vok} |
| [cenově dostupný] (S/být) |
| [pod pláštíkem (něčeho)] (V) |
Při vytváření programu pro vyhledávání idiomů a frazémů jsme se snažili nalézt takové programové prostředky, které umožní obecné vyhledávání posloupnosti slov (např. kolokace, frazémy, idiomy), která je zadána svým lexikálním obsazením a významem (případně jen gramatickou informací – lemma, značka [tag] nebo jen slovní druh, pád apod.).
Vyhledávání frazémů a idiomů probíhá pomocí programu a tabulek. Hlavní program postupně „načítá“ jednotlivá slova ve větě ze vstupního souboru a vyhledává je v tabulce (levá strana hesla v tabulce). Jestliže se slovo vyskytuje v tabulce (tj. dané slovo je posledním slovem nějakého frazému), porovnávají se ostatní slova (předcházející) z textu se slovy frazému (pravá strana hesla v tabulce). Vyhledávání probíhá jen v rámci věty nebo její souvislé části. Příslušné tabulky obsahují hesla – zápisy jednotlivých frazémů a idiomů. Řetězce slov se zadávají do souboru „tabulka“ v určitém tvaru a řadí se podle posledního slova hledané posloupnosti.
Ukázka dat ve vstupním souboru (pro vyhledávání frazémů souvislých a neohebných):
<s id=“S/NWS/1994/ln94193:85-p1s2“>
<f cap>Přesně
<f>v
<f>duchu
<f>politické
<f>reality
<D>
<d>.
Morfologicky anotovaný text (pro vyhledávání frazémů nesouvislých a ohebných):
<s id=“S/NWS/1994/ln94267:123-p2s3“>
<f cap>Hodnotila<MMl>hodnotit_:T<MMt>VRQXA
<f>se<MMl>s<MMt>RV7<MMl>se_(zvr._zájmeno/částice)<MMt>PRCX4
[123]<f>vína<MMl>víno<MMt>NNP1A<MMt>NNP4A<MMt>NNP5A<MMt>NNS2A
<D>
<d>.
<f>která<MMl>který<MMt>PQFFS1<MMt>PQFNP1<MMt>PQFNP4
<f>jsou<MMl>být<MMt>VPP3A
<f>k<MMl>k<MMt>R3
<f>dostání<MMl>dostání<MMt>NNP1A<MMt>NNP2A<MMt>NNP4A<MMt>NNP5A<MMt>NNS1A<MMt>
NNS2A<MMt>NNS3A<MMt>NNS4A<MMt>NNS5A<MMt>NNS6A
(Popis morfologických značek viz Hajič, v tisku.)
Obecný tvar hesla v tabulce souvislých a neohebných frazémů (vyhledávání podle formy slova):
<f>forma[r] <f>forma[0] <f>forma[1] … <f>forma[r-1] <m>*
<f>forma[s] <f> forma[0] <f>forma[1] … <f>forma[s-1] <m>|<f> forma[0] <f> forma[1] … <f>forma[t-1] <m>*
Znak | je oddělovač zápisů frazémů v tabulce, které mají stejné poslední slovo, * označuje konec hesla v tabulce, <m> zastupuje poslední slovo frazému, r, s, t jsou proměnné za počet slov, z nichž se frazém skládá. Příklad zápisu v tabulce frazémů jedním dechem, se zatajeným dechem, na pohled, na první pohled, dříve nebo později, dříve či později:
<f>dechem <f>jedním<m>|<f>se<f>zatajeným<m>*
<f>pohled <f>na<m>|<f>na<f>první<m>*
<f>později <f>dříve<f>nebo<m>|<m><f>dříve<f>či<m>*
Vyhledávání frazémů nesouvislých a ohebných podle lemmatu umožňuje zadat i morfologickou (gramatickou) informaci pro jednotlivá slova (tj. tag), proměnnou za lexikální jednotku a určit možnou změnu slovosledu.
<l>lemma5 <l>lemma1<t>tag2<l>lemma2<X><l>lemma3<t>tag4<l>?<X><m><t>tag5*
<X> označuje, že v textu se mohou na těchto místech nacházet slova, která nejsou součástí frazému, tj. mezi druhým a třetím slovem a mezi čtvrtým a pátým slovem idiomu se mohou v textu vyskytovat jiná slova. Jednotlivé části frazému mezi dvěma <X> se mohou v textu vyskytovat v různém slovosledném pořadí, tag předchází příslušnému lemmatu, tag za značkou <m> přísluší lemmatu posledního slova frazému – levá strana hesla v tabulce. ? označuje libovolné lemma.
Při zadávání hesla do tabulky postačí při změně slovosledu pouze jeden základní zápis hesla, ostatní kombinace slovosledu automaticky vytvoří program.
Příklad zápisu frazémů ledoví muži, boj muže proti muži, muset přiznat barvu a mít dobrou barvu:
<l>muž <t>AMP<l>ledový<m><t>NMP|<t>NIS<l>boj<t>NMS2A<l>muž<t>R3<l>proti<m><t>NMS3A*
<l>barva <t>V<l>muset<X><t>V<l>přiznat<X><m><t>NFS4A|<t>V<l>mít<X><t>AFS41A<l>dobrý
<m><t>NFS4A*
Automaticky se vytvoří například i zápis barvu muset přiznat:
<l>přiznat <t>NFS4A<l>barva<X><t>V<l>muset<X><m><t>V*
Výše uvedený program pouze vyhledává zadané řetězce slov v textu, ale v mnoha případech nelze takto určit, zda jde o frazém. Proto je po nalezení příslušného řetězce v textu nutné dalšími prostředky rozlišit (určit), zda se jedná opravdu o frazém, případně rozlišit jednotlivé významy.
Poměrně často nastává případ, kdy nalezený řetězec není v daném kontextu frazémem nebo má odlišný význam. Najít přídavná omezení, která rozliší např. výskyty hesla na místě nebo z místa (V) ve smyslu „okamžitě v dané chvíli, v dané situaci“, není jedno[124]duché. V testovacím vzorku z korpusu se toto heslo vyskytlo v různých významech:
a) | dělat něco přímo na místě | Na místě byl mrtev. |
b) | dělat (sedět, zůstávat, udržet apod.) na místě nebo chůze na místě, sezení na místě | |
|
| Přešlapují na místě, jako by se … |
c) | na místě nebo z místa něčeho (předložka) Kdybych byl na místě sovětského vedení … | |
|
| z místa úderu … |
| na místě nějakém (kde) | na místě zvlášť pustém, na místě samém |
|
| Zůstala na místě, kam právem přísluší. |
|
| Odevzdal to na místě, na kterém se dohodli. |
|
| Stál na místě, kde jsme se ztratili. |
d) | Nejčastější je výskyt ve smyslu je (zcela) na místě obava, vykonat, opatrnost, pokusit se | |
Obdobně je třeba vyřešit výskyty: | Zmizí z místa, kde žili. | |
|
| Po třech týdnech se nepohnuly z místa. |
|
| Putoval neustále z místa na místo. |
V jiných případech je nalezený řetězec pouze vytržená část například nějaké nominální fráze. Výskyty přes/přese všechno (Přes všechno se o to pokusil znovu) a (V) po našem/po našemu (Mluví po našem) ve frázích přes všechno úsilí kandidátů, přes všechno úsilí strany, Rostock angažoval po našem Strakovi ještě dvojici … nejsou frazémy.
Často se setkáváme s případem, kdy nalezený předložkový frazém je předložkou (složený předložkový výraz, předložkový frazém). Heslo v duchu je frazémem ve větě Pražané včera v duchu tleskali poslední akci, ale plní funkci předložky ve spojeních v duchu lamentace, v duchu své sociální demagogie.
Uvedené problémy částečně odstraní následný program, který bude rozlišovat nalezené řetězce v morfologicky označkovaném textu například pomocí následujícího kontextu. Pro konkrétní frazémy může pracovat například podle tohoto algoritmu: jestliže za slovem všechno (resp. duchu) následuje podstatné jméno v akuzativu (resp. podst. jméno nebo přídavné jméno v genitivu), nejedná se o frazém. Teoreticky v tomto případě může nastat problém, jestliže text nebude morfologicky zjednoznačněný, ale pravděpodobnost výskytu takového kontextu je velmi malá (srov. přes všechno úsilí kandidátů neubývalo; v duchu u nás nepříliš častém – totiž muzikálovém).
Nalézt kritérium, podle kterého by se rozlišil význam frazému, bude velmi nesnadné pro následující případy:
– Citovaný slovník obsahuje nejběžnější frazémy a idiomy a jejich základní tvary, ale frazém je často v určitém textu autorem obměněn nebo přizpůsoben. Kromě hesla z nouze ctnost (udělat z nouze ctnost) se v textu vyskytují vyjádření z nouze nectnost, z nouze dělá ctnost, být (tak trochu) z nouze ctností, pokládat za ctnost z nouze a dokonce několikrát i z nouze cnost.
– Ve slovníku je uvedeno jako heslo v pravém/širokém/úzkém/vlastním slova smyslu n. v pravém/širokém/úzkém/vlastním smyslu (tohoto) slova (V/S/A/Adv). Výskyt tohoto frazému je poměrně častý, ale v korpusu lze najít mnoho obměn, např.: v dnešním slova smyslu, v dobrém slova smyslu, v nejlepším slova smyslu, v našem slova smyslu, v národním slova smyslu, v nejobecnějším smyslu slova, ve fyzickém smyslu slova, ve [125]špatném slova smyslu. Tyto obměny se dají lehce obsáhnout zobecněním hesla na v „nějakém“ slova smyslu (smyslu slova), kdy zástupné nějakém musí zahrnovat i výskyty jako např. v tom nejširším slova smyslu, v onom nádherně nadsazeném slova smyslu, v jiném než obvyklém pejorativním slova smyslu, v našem, křesťanském slova smyslu.
– V textu se setkáváme i s různými obměnami hesla bouře ve sklenici vody, např.: bouře ve sklenici privatizace, bouře ve sklenici klubové vody, bouře ve sklenici s vodou nebo pouze bouře ve sklenici.
– Pro správnou identifikaci frazémů (S) na míru (Musí mít oblek na míru) a pro změnu (V) (Musíme si pro změnu najít jinou zábavu) je potřebné nalézt vhodné řešení, které nám umožní rozlišit výskyty ve spojeních např.: snížení inflace na míru co možná nejmenší, bez ohledu na míru viny či neviny, změny jen pro změnu samotnou, pro změnu vlastnictví, poslanec Mečiar (byl) pro změnu v lavicích opozice.
V současné době jsou nejpodrobněji zpracovány souvislé neslovesné frazémy. Příslušné řetězce slov jsou v textu poměrně časté, ale značná část výskytů je spojena s výše popsanými problémy. Nejvíce frekventovaná jsou spojení: v současné době, v podstatě, mimo jiné, v poslední době, v tomto případě, výše uvedené, tak zvaný, dobrá vůle, hlavní role, trestný čin a jiné.
Postupně se zpracovávají slovesné frazémy, které jsou náročné na formulaci zápisu do tabulky. Nejméně jsou zpracována přirovnání, protože podle předběžného hledání v korpusu je jejich výskyt v reálném textu značně nízký.
Zajímavé výsledky přinesl i pokus se zobecněním zápisu frazémů v tabulce (konkrétní lexikální jednotky kromě posledního slova byly zaměněny za proměnnou). Výsledky takového vyhledávání mohou sloužit pro další identifikaci frazémů (například při ručním zpracování), ale i pro různá lingvistická bádání (např. zjednoznačnění morfologicky označkovaných textů).
Příklady výsledků při vyhledávání posloupností z nějakého hlediska a s něčím v ruce pomocí programu pro vyhledávání frazémů v textu: | |
z <anatomického> hlediska | z <evolučního> hlediska |
z <lékařského> hlediska | z <jakého> hlediska |
z <ekonomického> hlediska | z <jeho> hlediska |
z <fyzikálního> hlediska | z <mého> hlediska |
z <jazykového> hlediska | z <jiného> hlediska |
z <politického> hlediska | z <tohoto> hlediska |
z <právního> hlediska | z <molekulárního> hlediska |
z <tanečního> hlediska | z <morálního> hlediska |
z <technického> hlediska | z <našeho> hlediska |
z <vojenského> hlediska | z <praktického> hlediska |
z <bezpečnostního> hlediska | z <teoretického> hlediska |
z <daňového> hlediska | z <ženského> hlediska |
z <dlouhodobého> hlediska | ze <dvou> hledisek |
z <širšího> hlediska |
|
|
|
s <kudlami> v rukách | s <hadicí> v ruce |
s <noži> v rukou | s <výpravkou> v ruce |
[126]s <pistolí> v ruce | se <zbraní> v ruce |
s <pochodní> v ruce | se <sirkou> v ruce |
s <bičem> v ruce | s <nožem> v ruce |
s <glóbem> v ruce |
|
LITERATURA
ČERMÁK, F.: Idiomatics. In: P. A. Luelsdorff (ed.), The Prague School of Structural and Functional Linguistics. John Benjamins Publishing Company, Amsterdam – Philadelphia 1994, s. 185–195.
ČERMÁK, F.: Komputační lexikografie. In: F. Čermák – R. Blatná (red.), Manuál lexikografie. Praha 1995.
ČERMÁK, F.: Jazykový korpus: Prostředek a zdroj poznání. SaS, 56, 1995, s. 119–140.
FILIPEC, J. – ČERMÁK, F.: Česká lexikologie. Academia, Praha 1985.
HAJIČ, J.: Disambiguation of Rich Inflection (Computational Morphology of Czech). Karolinum, Praha, v tisku.
Slovník české frazeologie a idiomatiky (SČFI). 1. Přirovnání. 2. Výrazy neslovesné. 3. Výrazy slovesné. Academia, Praha 1983, 1988, 1994.
[*] Tento článek vznikl s podporou grantu GAČR reg. č. 405/96/K214.
[1] Tzv. zástupná slova – něco, něčeho, někde, něčí apod., která jsou součástí reprezentace valence frazému, nemusí zastupovat pouze jedno slovo. Mohou „zastupovat“ zájmeno, nominální nebo předložkovou frázi a někdy vedlejší větu. Tyto části většinou nejsou přímo součástí frazému, ale v určitých případech mohou při jeho určení hrát podstatnou roli. Srov. frazém nechat někoho na holičkách a větu Nechali jsme na holičkách, jak nás ostříhají. Podobnou funkci zástupného slova má sloveso dělat v hesle dělat (něco) ve dne v noci, na rozdíl od dělat čest svému jménu.
[2] kol je zkratkou pro kolokviální výraz, nepřízn označuje specifický příznak expresivní – nepříznivý, ot naznačuje, že frazém se nepoužívá v otázce.
[3] Případně i neohebná nesouvislá nebo ohebná souvislá.
Ústav teoretické a komputační lingvistiky FF UK
Celetná 13, 110 00 Praha 1
Slovo a slovesnost, ročník 63 (2002), číslo 2, s. 117-126
Předchozí Kamila Karhanová: Kritická analýza současného politického diskursu: Nový jazyk britských labouristů
Následující Irena Bogoczová: Jozef Štefánik: Jeden člověk, dva jazyky
© 2011 – HTML 4.01 – CSS 2.1