Časopis Slovo a slovesnost
en cz

Sémantika a statistika

Marie Těšitelová

[Články]

(pdf)

Семантика и статистика / La sémantique et la statistique

1. O lexikální statistice je obecně známo, že představuje nejstarší a nejlépe propracovanou oblast kvantitativní lingvistiky. Jejím předmětem je v zásadě kvantifikace slova, které tu bylo až dosud většinou chápáno jako grafická jednotka. Teoreticky by v lexikální statistice mělo tedy jít o slovo jako jednotku čistě formální, jednotku v plánu výrazu. V praxi lexikální statistiky však často není možno úplně pomíjet význam slova;[1] ten si při interpretaci statistických dat přímo vynucuje, abychom mu věnovali pozornost, nehledíce přirozeně k tomu, že při studiu jazykových jevů, slova pak zvláště, nelze snadno narušovat dialektickou jednotu formy a obsahu. Tak se zřetel k významové stránce v lexikální statistice uplatnil dosud např. přihlížením k slovnědruhové příslušnosti slova. Jako příklad tu možno uvést český frekvenční slovník a mou monografii o lexikální statistice.[2] O uvedených a jim podobných pracích lze konstatovat, že se tu význam slov kvantifikoval nepřímo.

Kromě toho existují v oblasti studia slovní zásoby statistickými metodami práce, dosud nepříliš časté, v nichž je významová stránka slova studována přímo. Jde tu v podstatě o dvojí práce z hlediska chronologického: (1.) z let třicátých až padesátých tohoto století sémantické frekvenční slovníky angličtiny,[3] (2.) z let šedesátých a sedmdesátých práce týkající se převážně ruštiny.[4]

Všechny uvedené práce spojuje snaha charakterizovat významy slov uváděním dat o jejich frekvenci, jejich pravděpodobnostních parametrů, aby se objektivně stanovilo jejich místo v sémantickém systému. Slouží k tomu zejména statistická (zvl. distribučně statistická) analýza textů v jednom jazyce, překlady do jiných jazyků s cílem vytvořit základ pro typologii sémantiky různých jazyků apod. Práce tohoto druhu vznikají i v souvislosti se studiem sémantiky v rámci strojového překladu, informatiky, v poslední době i textové gramatiky apod. Spojování studia frekvence jazykových jevů se studiem jejich stránky sémantické představuje jádro interpretace zjištěných statistických dat, nezbytné součásti základního postupu v kvantitativní lingvistice vůbec.

Z hlediska metodologického lze dosavadní práce ze sémantické statistiky (aplikace statistických metod při studiu sémantiky) v oblasti lexika rozdělit do tří skupin: (1.) u slov uspořádaných podle frekvence (zpravidla klesající) se uvádí počet jejich významů podle výkladového slovníku;[5] (2.) sémantika slov se studuje i statis[101]ticky v rámci tzv. sémantických polí;[6] (3.) aplikuje se distribučně statistická metoda, v posledních letech nejvíce propracovaná v sovětské matematické lingvistice.[7]

Metoda prvá vychází z faktu obecně známého v kvantitativní lingvistice, že existuje těsný vztah mezi frekvencí slova a jeho sémantikou a že čím je slovo frekventovanější, s tím větší pravděpodobností je polysémní. I mezi slovy méně frekventovanými nacházíme však slova polysémní (srov. pozn. 5). Pokud jde o kvantifikaci významu slov v rámci sémantického pole, je tu největším problémem sémantické pole samo, které je komplexním jevem z hlediska nejen lingvistického, ale i psychologického, biologického apod. (srov. R. M. Frumkinová, o. c. v pozn. 6). Předností distribučně statistické metody je, že sleduje význam slova se zřetelem k výskytu a distribuci jiných jazykových jevů, zjišťuje vztahy mezi nimi a ty potom kvantifikuje, např. pomocí koeficientu korelace apod.

2. Těchto několik uvedených faktů o kvantifikaci významů slov a naznačení problémů s tím spjatých ukazují složitost sémantické statistiky v oblasti lexika. Souvisí to pochopitelně i s tím, že sémantika sama není ještě ani dnes propracována na všech úrovních natolik, abychom se při kvantifikaci mohli o její výsledky bezpečně opřít. Platí to i o lexikální sémantice, i když jí až dosud bylo věnováno relativně nejvíce pozornosti. Kvantifikace má pak úkol o to nesnadnější, že aplikace kvantitativních metod, zejména statistických klade v oblasti sémantiky zvláštní požadavky jak na jednotku souboru, tak i na rozsah korpusu, ale i na způsob jeho pořizování.

Zkušenosti z dosavadního studia frekvence forem jazykových jednotek, slov, ukazují, že nevystačíme vždy s izolovaným slovem, popř. tvarem slova, nýbrž často musíme brát v úvahu širší kontext; v sémantické statistice se přirozeně bez kontextu neobejdeme a zde se ukazuje první závažný problém. Všechna data (materiál) musíme pořizovat v kontextu, jaký vyžaduje identifikace významu (lexikálního). Jednotkou je tu v podstatě lexikální význam slova (resp. aktuální význam slova), jak jej nacházíme v daném kontextu. I když jsem si vědoma problematiky s tímto řešením spjaté, domnívám se, že na tomto základě možno dále postoupit v oblasti kvantifikace významu slov. S tím je ovšem spojena i otázka, jaký rozsah má mít kontext pro vymezení významu slova. Jako minimální norma se např. uvádějí dvě slova zprava a dvě slova zleva potřebná k jednoznačnému určení významu tvaru, resp. slova (izolovaného). Ukázalo se to dostačující i při studiu morfologické homonymie (kde se rovněž bez zřetele k významu slova neobejdeme) v češtině[8] i v ruštině.[9] Při stanovení rozsahu kontextu k identifikaci významu slova záleží samozřejmě i na jeho slovnědruhové příslušnosti. Např. u slovesa ve větě, kde nacházíme různá doplnění, obligatorní i fakultativní, ať již jde o predikát, objekt, různé druhy příslovečného určení apod., modifikující význam slovesa v daném aktuálním užití, potřebujeme pochopitelně kontext širší. Pro jednotlivé druhy slov bude ovšem nutno experimentem stanovit minimální rozsah kontextu, i když zde bude třeba počítat s jistou tolerancí vzhledem k specifice podmínek při určování aktuálního významu slova.

Druhým závažným problémem v sémantické statistice je rozsah korpusu, na němž bychom měli kvantifikovat význam slov, jako je tomu ostatně v kvantitativní lingvistice vůbec. Odhad korpusu dostatečně rozsáhlého vzhledem k studovanému jevu je složitá problematika a dosud byla řešena jen v dílčích aspektech. Jestliže se v lexikální statistice — v zásadě bez zřetele k sémantice slova — ukázalo jako opti[102]mální řešení vycházet z celých textů, popř. z jejich souvislých částí (srov. M. Těšitelová, o. c. v pozn. 2, s. 46n.), tím spíše to bude platit pro statistiku sémantickou, beroucí v úvahu význam slova. Zvláštní úlohu tu bude mít tematika textu i funkční styl, které se přirozeně i v kvantitativní lingvistice vůbec významně uplatňují.

Specifikou pro sémantickou statistiku vůbec — i pro oblast lexika ovšem také — je v souvislosti s povahou jednotky souboru a rozsahem materiálu i způsob jeho shromažďování. To, že všechny jednotky souboru musí být uváděny v kontextu, znamená, že značně narůstá rozsah korpusu a že se s ním při ručním zpracovávání nesnadno manipuluje. Tyto obtíže byly dosud podle mého názoru z technického hlediska největší brzdou, popř. překážkou v rozvoji sémantické statistiky (tím spíše to platí o jednotkách větších než slovo, zvláště syntaktických), zejména pokud jde o kvantifikaci kombinovatelnosti slov v rámci věty (nedostatek vytýkaný např. slovníku Westovu, opírajícímu se o 5 miliónů jednotek, o. c. v pozn. 3). Otevřenou cestu k sémantické statistice lze podle mého názoru plným právem spatřovat v moderní výpočetní technice, resp. ve využití samočinných počítačů. Do paměti počítače — ovšem dostatečně rozsáhlé — můžeme uložit jazykové jevy, jednotky v maximálně potřebném kontextu. Kromě toho počítač umožňuje zaznamenat a potom vypsat data, a to nejen tak, jak jsme je původně do počítače uložili, ale i v nových možných, resp. potřebných kombinacích, např. všechna spojení daného slova (popř. spojení slov) v různých textech různých funkčních stylů, např. spojení daného adjektiva s různými substantivy i naopak apod. Je však samozřejmé, že potřebný materiál k tomu nám zatím dodá počítač podle toho, jak mu to uložíme vhodným programem, který ovšem musí sestavit člověk se zřetelem k tomu, co člověk již před započetím práce stroje připravil. Optimální postup při sémantické analýze slov z hlediska statistických metod bude však nutno ještě hledat, propracovávat a vzhledem k technice automatizovat.

3. Jako příklad kvantifikace významu slov na základě materiálu, který byl získán s pomocí samočinného počítače (v rozsahu 180 000 slov) ze současné české publicistiky,[10] uvedu v hrubých rysech na slovese dát; toto sloveso (s frekvencí 168) patří mezi prvních 10 nejfrekventovanějších plnovýznamových sloves v tomto materiále. Je polysémní, jako relativně nejfrekventovanější slovesa vůbec, má do jisté míry charakter modální (srov. dále) a diferenciace jeho významů naráží na mnohé problémy. Zvolila jsem je úmyslně, protože vzhledem k některým výše uvedeným vlastnostem se při identifikaci významů a jejich kvantifikaci nutně uplatňuje více činitelů, jeho „okolí“, doplnění obligatorní i fakultativní, aktuální členění, slovosled apod.

Připomeňme, že SSČ uvádí u slovesa dát celkem 7 významů: 1. ‚odevzdat, poskytnout někomu něco do vlastnictví, k spotřebování apod.‘; 2. (zvl. ve sp. to dá ‚vyžaduje‘) ‚vyžadovat‘; 3. ‚umístit, položit, postavit, přemístit, podat‘; 4. ‚dovolit‘, zprav. záp. ‚nedovolit‘; 5. ‚nechat, dopustit‘; 6. ‚postarat se, aby bylo něco vykonáno‘; 7. ve spojení s podst. jm. děj. — opisně vyjadřuje děj: dát rozkaz, pokyn.

Konfrontujme tento sémantický objem (termín častý v sovětských pracích cit. v pozn. 4) slovesa dát s distribucí jednotlivých významů tohoto slovesa v našem materiálu z publicistiky:

 

význam:

1:

86

výskytů, tj.

51,19

%

 

 

2:

8

 

4,76

 

 

 

3:

13

 

7,74

 

 

 

4:

2

 

1,19

 

 

 

5:

 

 

 

[103]

6:

5

 

2,98

 

 

 

7:

 

 

 

 

8:

54

 

32,14

 

 

 

Σ

168

 

100,—

%

 

 

Jak zřejmo na základě našeho materiálu se ukázalo nutné zařadit jako zvláštní význam (8) reflexívní tvar dá se, dají se s významem ‚možno, lze‘ (SSČ uvádí tento význam u refl. stát se);[11] tento význam představuje druhý nejčetnější význam slovesa dát.

Jako další krok při kvantifikaci významů slovesa dát uplatníme zřetel k syntaktické funkci. Protože jde o sloveso, je tu pochopitelně v jasné číselné převaze syntaktická funkce slovesného predikátu, srov.: 

 

slovesný predikát:

142

výskytů, tj.

84,52

%

 

objekt:

13

 

7,74

 

 

subjekt:

8

 

4,76

 

 

atribut:

2

 

1,19

 

 

inf. věta:

3

 

1,79

 

 

Σ

168

 

100, —

%

 

 

Nabízí se sledovat dále distribuci syntaktických funkcí i u jednotlivých významů slovesa dát. Srov. např. rozložení významů se zřetelem k syntaktické funkci slovesného predikátu: 

 

význam

1:

66

výskytů, tj.

46,48

%

 

 

2:

8

 

5,63

 

 

 

3:

11

 

7,75

 

 

 

4:

2

 

1,41

 

 

 

5:

 

 

 

 

6:

1

 

0,70

 

 

 

7:

 

 

 

 

8:

54

 

38,03

 

 

 

Σ

142

 

100,—

%

 

 

U všech významů je pochopitelně relativně nejvíce doložena syntaktická funkce predikátu, její rozložení zhruba sleduje rozložení významů slovesa dát (srov. s. 102—103). Ostatní syntaktické funkce jsou doloženy jen u některých významů: Např. syntaktická funkce objektu u významu 1 (12×, tj. 92,31 %) a 6 (1×, 7,69 %), funkce subjektu jen u významu 1 (5×, tj. 62,5 %), 3 (1×, tj. 12,5 %) a 6 (2×, tj. 25 %). Počet ostatních syntaktických funkcí slovesa dát i jejich rozložení vzhledem k jednotlivým významům jsou celkem zanedbatelné (srov. i přehled výše). Jak zřejmo — jednotlivé významy slovesa se liší i svými syntaktickými funkcemi. Znamená to, že při kvantifikaci významů slova je třeba brát v úvahu i jejich funkce syntaktické a při klasifikaci funkcí statistické údaje.

Další krok při kvantifikaci významu slov představuje zřetel k morfologickým charakteristikám. Ve shodě s FSČ (a zde se skupinou F — žurnalistikou) i s naším zjištěním v korpusu současné české publicistiky jsou tvary prézentní častější než preteritální:

Také u slovesa dát připadá na indikativ préz. (akt. i pas.) 65 tvarů, tj. 38,69 % (z toho na tvary aktivní 26, tj. 40 %, refl. pasíva 35 tvarů, tj. 53,85 %, slož. pasíva 4, tj. 6,15 %), na indi[104]kativ prét. (akt. i pas.) 51 tvarů, tj. 30,35 % (z toho na tvary aktivní 43, tj. 84,32 %, refl. pasíva 5, tj. 9,80 %, slož. pasíva 3, tj. 5,88 %).

Bylo by možno sledovat, jak jsou jednotlivé významy doloženy ve vztahu k morfologickým kategoriím, u slovesa k osobě, číslu, času, způsobu a rodu. Bez uvádění podrobných dat můžeme tu konstatovat, že existuje těsný vztah mezi morfologickými kategoriemi a některými významy slovesa dát; připomeňme tu modální funkci reflexívních tvarů 3. os. sg. a pl., srov. dá se hovořit, říci, soudit, předpokládat, nedá se změnit, svítit apod., 2. os. pl. ind. préz. akt. doloženou např. jen ve spojení dáte za pravdu.

Sledujme dále např. vztah jednotlivých významů ke kategorii slovesného způsobu a času. Nejčastější význam (1) v tvarech ind. préz. a prét. akt. ve funkci predikátu bývá doplněn objektem v akuzativu a/nebo v dativu, srov. dát komu co a/nebo co komu. Statistická data ukazují, že je tu rozdíl mezi tvary prézentními a preteritálními. Ve tvarech prézentních (akt.) můžeme za obligatorní označit jen postavení objektu v akuzativu za tvarem slovesa dát (v 31 %), postavení před slovesem (v predikátu) je do značné míry závislé na slovosledu, ale i na aktuálním členění (tedy potenciální), srov. dáte brigádu dohromady (v ustáleném spojení dát dohromady ‚složit‘) proti to (4. p.) snad dáme dohromady. — Doplnění objektem v dativu se ukazuje mnohem volnější, fakultativní. Má tendenci sloveso v prézentu (ve funkci predikátu) předcházet, pokud má u sebe další objekt v akuzativu, srov.: drůbeži dáme vše, co …, komu dají svůj hlas … V preteritálních tvarech slovesa dát se ukazují jako obligatorní doplnění v akuzativu i dativu zároveň (celkem v 50 %). Kolísání tu nastává, když oba následují za slovesem v predikátu, poměr je tu zhruba 1 : 1, srov. Dirigent dal opeře puls apod. U preteritálních tvarů objekt v dativu sloveso dát častěji předchází, je-li vyjádřen zájmenem (asi v 80 %), objekt v akuzativu následuje (ve 20 %). Srov. Voliči mu přesto dali důvěru … (Uplatňuje se tu ovšem i rytmizace zájmenných příklonek a ustálenost spojení typu dát důvěru.)

Pokud jde o modální význam (8) ‚lze, možno‘, je jeho „okolí“ do značné míry ustáleno, zvl. v prézentu: Zastává-li funkci predikátu, zpravidla za ním následuje subjekt v infinitivu, srov. dá se hovořit, nedá se říci apod. Pokud je subjekt vyjádřen zájmenem a sloveso záporné, subjekt v 67 % zpravidla bezprostředně předchází a objekt následuje často též bezprostředně (působí tu zřejmě slovosled a sémantika ustálených syntagmat, ale i aktuální členění), srov. nic se nedá měnit, to se nedá překonat apod. U plurálového tvaru dají se je situace analogická, srov. Ty věci se dají mnohdy odstranit apod., v préteritu Švindlovat se nedalo apod.

Podobně bychom mohli postupovat při kvantifikaci okolí slovesa dát v syntaktické funkci objektu (rovněž převážně u významu 1, srov. výše). Čím méně máme dokladů na jednotlivé významy, tím méně průkazné jsou přirozeně naše závěry. V našem případě sloveso dát v syntaktické funkci subjektu je např. doloženo pouze 8×, a to ve významech 1, 3 a 6, tedy se značným rozptylem. Zde můžeme např. zatím jen konstatovat, že v 75 % je bohatě rozvito zleva; srov. Žádný univerzální návod dát nelze

Na slovese dát jsem uvedla jen ukázku toho, jak můžeme na základě statistických dat lexikálních v kombinaci s charakteristikami syntaktickými a podle potřeby a možnosti i morfologických kvantifikovat významy, resp. užití slova podle jeho distribuce v textu. Je samozřejmé, že podle potřeby a účelu je možno při této sémantické statistické analýze jít do větší nebo menší hloubky a šíře. O tom do značné míry rozhoduje druh slova, který má při kvantifikaci důležitou úlohu.

Např. také u substantiv lze lexikální významy kvantifikovat se zřetelem k jejich syntaktickým funkcím (např. subjektu, atributu apod.) a ve vztahu ke kategoriím morfologickým (srov. kategorii rodu: např. maskulina životná nacházíme nejčastěji ve funkci subjektu apod.). Při tom však má zvláštní význam i kvantifikace vztahu substantiv k adjektivům, popř. naopak. Např. [105]adjektivum bílý, které je v korpusu ze současné publicistiky nejčastěji doloženým označením barvy (jako je tomu i ve FSČ), nacházíme ve významu ‚mající barvu sněhu, … (opak černý)‘ relativně nejčastěji ve spojení bílá káva a v místních jménech Bílá Rus, Bílý potok, dále pouze rozptýleně jako bílé rukavičky, bílé střevíčky, bílé denní světlo, bílý kvítek, bílá barva apod.

 

Závěr: Uvedla jsem některé základní problémy, s nimiž se setkáváme při kvantifikaci v oblasti lexikální sémantiky, a naznačila jsem postupy, které se při tom nabízejí. Důležitými faktory jsou tu především slovnědruhová příslušnost slova, jehož významy se kvantifikují, jeho distribuce i distribuce slov, která tvoří jeho „okolí“. Výsledky distribuční analýzy se doplňují o výsledky statistické analýzy syntaktické (zaměřené na syntaktické funkce a jejich distribuci se zřetelem k významu slova), u ohebných slov pak v kombinaci se statistickou analýzou morfologickou, resp. morfologických kategorií. Směr postupu od analýzy syntaktické k morfologické může být v některých případech i opačný. Zejména syntaktická statistika se ukazuje jako důležitý článek při kvantifikaci nejen významů slov, ale i vyšších jednotek, slovních spojení různé těsnosti apod. Tento postup však vyžaduje materiál připravený podle uvedených aspektů, aby vzhledem ke složité jednotce souboru (lexikálnímu významu) byl použitelný v různých kombinacích podle aktuální potřeby apod. Takový materiál může sice připravit člověk, ale jen ve spojení se samočinným počítačem, má-li rozsah analyzovaného materiálu být reprezentativní a práce s ním dostatečně operativní. Úkol kvantifikovat významy jednotlivých slov, zjišťovat pravděpodobnost jejich výskytu a jejich distribuci, měřit těsnost jejich spojení, jejich kombinovatelnost, ustálenost jejich okolí apod., jsou hlavní úkoly, které má dnes před sebou sémantická statistika, zejména v oblasti lexikální.

 

R É S U M É

Semantik und Statistik

Die Verfasserin (1.) führt vom chronologischen und methodologischen Gesichtspunkt aus einige Arbeiten an, die die Wortbedeutung (mit statistischen Methoden) zu quantifizieren versuchten, (2.) sie deutet die damit verbundenen Grundprobleme an (Gesamtheitseinheit, Umfang des Materials und Art seiner Beschaffung), (3.) sie schlägt Verfahren bei der Quantifizierung der Wortbedeutungen vor, die sie am Beispiel des tschechischen Verbs dát (geben) veranschaulicht. Sie betont die Wortartzugehörigkeit des Wortes, die Distribution seiner Bedeutungen und der Wörter in seiner Umgebung. Die Ergebnisse der distributionell statistischen Analyse ergänzt sie um die Ergebnisse der syntaktischen (auf die syntaktische Funktion eingestellten) Statistik, bei flektierbaren Wörtern in Kombination mit der morphologischen (auf morphologische Kategorien eingestellten) Statistik. Im Hinblick auf diese Verfahren, die die Kompliziertheit der Gesamtheitseinheit — der lexikalischen Bedeutung berücksichtigen, wird ein auf besondere Weise vorbereitetes Material benötigt, das man nur mit Hilfe eines Computers beschaffen kann.


[1] K významu slova srov. B. Havránek - J. Filipec, Lexikálně sémantická výstavba hesla — ústřední otázka lexikografické práce, sb. O vědeckém poznání soudobých jazyků, Praha 1958, s. 177; dále Slovník spisovného jazyka českého I—IV, nejnověji Slovník spisovné češtiny, Praha 1978 (dále SSČ).

[2] J. Jelínek - J. V. Bečka - M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961 (dále FSČ); M. Těšitelová, Otázky lexikální statistiky, Praha 1974.

[3] Srov. zejm. tyto práce: Irving Lorge a Edward L. Thorndike, A Semantic Count of English Words, New York 1938; doplněk k tomu I. Lorge, The Semantic Count of the 570 Commonest English Words, Columbia University 1949; sémantický frekvenční slovník ve vlastním slova smyslu: Michael West, A General Service List of English Words with Semantic References and a Supplementary Word-List for the Writing of Popular Science and Technology, London 1953. Slovník uvádí u jednotlivých slov frekvenci významů a v jejím rámci i frekvenci četnějších spojení apod. Byl dále doplňován o slova nová, např. atom, neutron aj., o internacionalismy apod. W. E. Floodem a M. Westem (Supplementary Scientific and Technical Vocabulary).

[4] Přehled nejnovějších prací z této oblasti uvádí např. Juhan Tuldava, O nekotorych kvantitativno-sistemnych charakteristikach polisemii, Linguistica XI, Tartu 1979, 107—141; srov. též B. A. Plotnikov, Distributivno-statističeskij analiz leksičeskich značenij, Minsk 1979, 133 s.

[5] Srov. o. c. v pozn. 3 a M. Těšitelová, o. c. v pozn. 2.

[6] K tomu např. R. M. Frumkina, O metode izučenija semantiki cvetooboznačenija, sb. Semiotika a informatika, vyp. 10, Moskva 1978, 142—161; René L’Hermitte, Observation sur le champ lexical des couleurs dans l’oeuvre de Puškin, Communication de la délégation française, VIIe Congrès international des slavistes, Varsovie, 21—27 août 1973, Paris 1973, 243—250.

[7] Srov. zejm. A. J. Šajkevič, Distributivno-statističeskij analiz v semantike, sb. Principy i metody semantičeskich issledovanij, Moskva 1976, 353—378.

[8] M. Těšitelová, O morfologické homonymii v češtině, Praha 1966, s. 18n.

[9] L. Horalík, O morfologické homonymii v ruštině, Olomouc 1975, s. 123n.

[10] Materiál byl v minulých letech za mého vedení shromážděn kolektivem oddělení matematické lingvistiky Ústavu pro jazyk český ČSAV.

[11] K tomu srov. J. Bauer - M. Grepl, Skladba spisovné češtiny, Praha 1972, zvl. s. 33.

Slovo a slovesnost, ročník 41 (1980), číslo 2, s. 100-105

Předchozí Ella Sekaninová: Z konfrontácie sémantickej štruktúry lexémy v ruštine a slovenčine

Následující Gustáv Moško: Syntaktické osobitosti apozície (apozitívnej konštrukcie)