Časopis Slovo a slovesnost
en cz

Texty Slezských písní Petra Bezruče prověřovány stroji

Jitka Štindlová, Eva Macháčková

[Rozhledy]

(pdf)

Тексты Силезийских песен Петра Безруча проверяются при помощи машин / Textes des Chansons silésiennes de Peter Bezruč vérifiés à l’aide des machines

Prvním publikovaným výsledkem využití strojů v mechanografické laboratoři Ústavu pro jazyk český je Konkordanční a frekvenční index k Slezským písním Petra Bezruče (z vydání r. 1957).[1]

Připravili jsme také již další svazek, Konfrontační konkordanční index z vydání roku 1957 a 1928 (viz ukázku na s. 162). Konfrontační index je uspořádán nikoli už jen v abecedním pořadí všech tvarů, které se v obou vydáních nacházejí, ale jednotlivé tvary týchž slov tvoří tzv. lemmata. (Výstupní text byl vypsán na počítači UNIVAC.)

Etapa lexikografické dokumentační práce, při níž se tvary soustřeďují pod heslovou podobu, nazývá se v mezinárodní úzu lemmatizací. Při práci pomocí strojů se [162]hledají postupy, které umožňují provádět lemmatizaci stroji samými.[2] Zůstáváme zatím u vymezeného a jen „manuálního“ zpracování lemmatizace. Všechna slova textu zařazujeme pod základní, heslovou podobu. Zkušenosti, které jsme i při našem úzkém, praktickém vymezení lemmatizace získali, nám ukazují, že jde o otázky složité, na něž upozornili již dříve autoři českého frekvenčního slovníku.[3] Text Slez-

 

 

 

1957

 

1928

1 ČASEM

 

16 011 01

 

16 011 01

1 ČASEM

 

33 026 04

 

33 026 04

1 ČASEM

 

14 013 02

 

43 013 02

1 ČASEM

 

44 026 02

 

44 026 02

1 ČASEM

 

50 025 05

 

50 025 05

1 ČASEM

 

55 025 03

 

55 025 03

1 ČASEM

 

77 097 01

 

77 097 01

1 ČASEM

 

84 007 02

 

84 007 02

1 ČASEM

15  

84 007 05

14  

84 007 05

ČASNĚ

1*

 

1*

 

ČASNĚ

1  

17 001 04

1  

17 001 04

ČASTO

1*

 

2*

 

ČASTO

 

 

 

10 068 04

ČASTO

1  

18 004 03

2  

18 004 03

● ČECH

3*

 

5*

 

2 ● ČECH

 

 

 

63 625 01

2 ● ČECH

1  

85 015 01

2  

85 015 01

● ČECHOVÉ

 

 

1  

63 325 04

● ČECHÚ

1  

60 036 06

1  

60 036 06

2 ● ČECHY

1  

44 021 05

1  

44 021 05

● ČECHIE

*

 

1*

 

● ČECHIE

 

 

1  

07 010 01

● ČECHY

3*

 

2*

 

1 ● ČECH

 

44 031 02

 

44 031 02

1 ● ČECH

2  

66 008 04

2  

66 008 04

1 ● ČECHY

1  

07 010 01

 

 

ČEKAN

1*

 

1*

 

ČEKANEM

1  

50 066 01

1  

50 066 01

ČEKATI

7*

 

7*

 

ČEKÁ

 

32 034 03

 

32 034 03

ČEKÁ

2  

48 014 04

2  

48 014 04

ČEKAL

1  

43 060 05

1  

43 060 05

ČEKÁM

1  

32 023 05

1  

32 023 05

ČEKÁŠ

1  

08 033 01

1  

08 033 01

ČEKAT

 

14 016 01

 

14 016 01

ČEKAT

2  

48 023 02

2  

48 023 02

Vysvětlivky: Ukázka z Konfrontačního konkordančního indexu k Slezským písním Petra Bezruče. Za lemmatem se uvádí počet výskytů všech tvarů (číslo s hvězdičkou). Následují tvary s referencemi (číslo básně, verše a pozice ve verši), v prvním sloupci z vydání 1957, v druhém z vydání 1928. Tečka před počátečním písmenem označuje velké písmeno, číslice označují homografy.

 

[163]ských písní dále potvrdil zkušenost, že není možné stanovit program lemmatizace obecně pro jakékoli texty, ale že každý autor a každý text přináší některé speciální otázky.[4] Nepřekvapují nás proto ani snahy, které se v poslední době při strojovém zpracování textu objevují, totiž lemmatizaci se vůbec vyhnout a tvořit jen nelemmatizované konkordanční indexy.

Základem, z něhož v našem případě vycházíme, je automaticky zaznamenaný text bez předběžné redakce, tedy text, kde pro další lexikografické zpracování je výchozí jednotkou každé slovo. Lemmatizace se uskutečňuje na základě morfologického charakterizování slov. Charakteristiky se buď zaznamenávají, kódují (to je nutné, pokud lemmatizaci uskutečňují stroje samy), nebo jen pomáhají při rozhodování o heslové podobě flektivních tvarů. Pro další lexikografické úkoly je totiž třeba především pracovat se základními podobami, lemmaty v užším slova smyslu. Lemma ve vlastním smyslu je pojmově širší, neboť představuje nejen základní, reprezentativní tvar slova, ale potenciálně celé paradigma daného slova s jeho variantami.

Stanovit nebo volit základní, heslovou podobu není vždy zcela jednoduché.[5] Právě charakter práce s textem Slezských písní, kdy je třeba lexikálně porovnávat různá vydání, různé úpravy textu v rozmezí více než padesáti let,[5a] nás nutí rozlišit lexikální varianty a lexikální dublety, charakterizovat druhy variant a dublet a stanovit pravidla, jak s variantami a dubletami zacházet. Dublety zpracováváme v zásadě jako samostatná lemmata, varianty soustřeďujeme do jednoho lemmatu. O existenci lexikálních dublet jako dubletních lemmat není pochyb. V případě dublet morfologicky těžko oddělitelných, kdy např. z pádové koncovky není jasné, ke kterému lemmatu patří (např. genitiv země může patřit jak k nominativu zem, tak i země), tvoříme „hybridní“ lemmata.[6] Např. zem/ě; rámě/rameno; šíj/e; podobně líc(f.), líce(n.), protože lokál líci může náležet jednomu nebo druhému heslu. Pokud lexikální dublety jsou podle morfologického hlediska zřetelně oddělitelné, stojí samostatně: zášť (f.), záští (n.).

Samostatnými lemmaty jsou všechna samostatně derivovaná slova, tedy i slovotvorné dublety pokládáme za skutečné lexikální dublety. Např. různě derivovaná deminutiva, příslovce (tichounko × tichounce), adjektiva od vlastních jmen místních (melčský × melecký),[7] adjektiva přivlastňovací apod. (např. Halfarovo (děvče) bude pod Halfarův, nikoli pod Halfar, ale je i samostatné lemma Halfarova — jako dnešní Halfarová, tj. Maryčka Halfarova, Magdonova).

Pro naše perspektivní porovnávací hledisko je výhodné soustředit pravopisné varianty, pravopisné odchylky, a to pod podobu současně kodifikovanou, pokud existuje (ssáti pod lemma sáti, zpurný pod vzpurný (a u zpurný odkaz), cymbál pod cimbál).[8] Pokud existují dvě podoby spisovné v různých vydáních (zsinalý [1928], sinalý [1957]), zachováváme je zpravidla jako samostatná lemmata. Není-li dnešní úzus znám a kodifikován, je první výskyt pro podobu lemmatu dominantní. Pro další podoby užijeme odkazů. Při konfrontaci vydání jistých časových rozmezí je [164]dobré na to pamatovat i v případě, že nejsou v starších vydáních dublety, ale jen starší pravopisný úzus a řadit i starší dublety pod současnou kodifikovanou podobu a dát v nutných případech odkazy. Dnešní pravopis respektujeme a „progresívně“ rozhodujeme i u příslovečných spřežek. Např. lemma shůry nebo vráz bude obsahovat jak spřežky, tak i formy bez předložky hůry, ráz ze spojení s hůry, v ráz. U předložky s, v jsou pak v závěru jejich výčtu spolu s následujícím slovem uvedeny případy, které s ním mohou tvořit spřežku (např. s bohem, s hůry).

U hláskových dublet je situace značně složitá. Hláskové alternace jsou příznakem slovotvorných, pravopisných, lexikálních i stylistických dublet. Pro tyto případy primárně platí individuální hledisko jednotlivých typů paralel. V případě paralel s hláskovými alternacemi, především s rozdílem kvantity kmenových samohlásek, jsme často volili společná lemmata, která hláskové varianty slučují. Pokud je podoba s graficky vyznačenou kvantitou spisovná a bez kvantity stylisticky příznaková, např. nářeční, zařazujeme ji pod spisovné lemma s vyznačenou délkou: dymka i dýmka pod lemma dýmka, steblo i stéblo pod lemma stéblo apod. Pokud obě podoby jsou spisovné, vytváříme společné lemma, např. jizlivý/jízlivý; řídnouti/řidnouti; zdvihati/zdvíhati; dešť/déšť apod.

Zvláštní pozornost je třeba věnovat variantám a dubletám se stylistickým příznakem, a to ať jde o paralelu dvou podob stylisticky příznakových, nebo o paralelu podoby příznakové a neutrální. V případě našeho textu šlo především o slova nebo podoby slov z nářeční vrstvy a dále pak o slova frekvenčně omezená — zastaralá, řídká a funkčně vymezená — knižní, básnická. V starších vydáních je třeba oddělit zastaralé výrazy odpovídající tehdejší současné lexikální normě od těch, které mají jako výrazy ne zcela frekventované a neutrální stylistickou funkci. Proto se pod současnou spisovnou podobu nedostávají zastaralá slova (která jsou jako zastaralá uvedena v SSJČ), jako hetman, dragon, věďma (spis. vědma), knut (spis. knuta) apod. — Nářeční slova hláskově odlišná od podob spisovných zařazujeme pod spisovné podoby (renčka pod ručka, dževuška pod děvuška). Nářeční tvary jako horal (‚hořel‘) zařazujeme pod spisovné lemma, tedy pod hořeti. Nářeční slova, pokud jejich spisovný ekvivalent není odlišný jen hláskově, tvoří samostatná hesla (četyna ‚jehličí‘, potka ‚kmotra‘, kobzol ‚brambor‘); totéž platí i o slovech, k nimž existuje zdánlivě spisovná hláskově alternovaná podoba, ale mají docela jiný význam (iskerka nář. ‚sedmikráska‘, spis. jiskerka, deminut. k jiskra; rybárka ‚racek‘). V takovýchto případech rozhoduje o lemmatu význam. K polysémii se však jinak nepřihlíží; polysémní jednotky zatím zůstávají zcela bez diferenciace, a proto si nevšímáme ani polysémie, která vzniká vlivem nářečního užití výrazu (chorý člověk × chorý chléb ‚černý‘; koruna ve významu ‚kůra‘). Výchozím principem samostatnosti lemmatu je hledisko morfologické. To jednoznačně rozhodlo o substantivech a adjektivech verbálních a posesívních adjektivech jako samostatných heslech; naopak o spojování komparativů a superlativů adjektiv a adverbií s pozitivy, negativních slovesných tvarů spolu s kladnými pod kladný infinitiv.

Každé substantivum verbální pokládáme za substantivum, nikoli za jmenný tvar slovesný. Nechceme tím zastírat, že jsou velké rozdíly v stupni lexikalizace těchto substantiv. Např.

V horký večer na klekání,
když se v dědině raz zvoní,

Bůh vám k milování
družku švarnou daruje.

Adjektiva verbální, ať utvořená z přechodníku přítomného (zhasínající), z příčestí trpného (poděšený, sehnutý) nebo minulého (zvadlý), vytvářejí samostatná lemmata, a to i tehdy, vyskytují-li se v jmenném tvaru:

[165]V soutězkách Thermopyl vstříc hledě záhubě jisté,
zezadu zaskočen zrádcem,
stál Leonidas.

Komparativy a superlativy adverbií pravidelně tvořené zařazujeme pod pozitivy. U nepravidelných stupňů přihlížíme k zpracování v SSJČ; pokud jsou tam samostatným heslovým slovem, tvoříme rovněž samostatné lemma. V indexu však doplňujeme odkazy, např. lépe, líp v. dobře. U dobře se tedy soustřeďuje dobře, lépe, líp, nejlépe. Podobně déle v. dlouho. Víc/e stojí samostatně ve shodě s SSJČ.

Záporné podoby slovesných tvarů zařazujeme pod kladný infinitiv, podobně i nelze pod lze. Jiná záporná slova se řadí samostatně, např. nedobrý, nepěšina, nepaměť (od nepaměti), nedotknutý apod.

Tvary soustředěné v lemmatu jsou uspořádány nikoli systematicky, ale důsledně abecedně. Proto i negativní tvary slovesné stojí pod kladnými infinitivy v pozici, kterou jim určuje abecední uspořádání tvarů. Vidíme to např. na lemmatu jíti

idžeš

jde

jdem

jdeme

jdeš

jdi

jdou

jdu

jít

nejde

nejdi

pojď

půjde

půjdem

půjdeš

půjdu

šel

šels

šla

šlo

šly

Systematické řazení tvarů se může uskutečnit na základě předem připravených seznamů lemmat a jejich tvarů nebo na základě strukturních schémat jednotlivých systémů gramatických morfémů. Zatím žádný z těchto aparátů nemáme vytvořen, ani jednotlivá slova nedoprovází kódovaná morfologická charakteristika. Proto řadíme tvary důsledně abecedně. To vyhovuje při práci strojům i uživatelům.

Lemmatizace vlastních jmen a součástí vlastních pojmenování otevírá celý kruh speciálních otázek. U vlastních jmen místních, lišících se od dnešních spisovných jmen jen kvantitou samohlásek, jsme jako lemma uvedli podobu dnes užívanou: tedy lemma Frýdek, podoba v textu Frydek; lemma Michálkovice, v textu Michalkovice. Vyskytuje-li se v textu podoba jména v obměně dnes nekodifikované, tvoří lemma. V takovém případě však pro informaci dnešní podobu uvádíme jako odkaz např. Střebovice, odkaz Třebovice v. Střebovice.

Obecná jména, která jsou zároveň vlastními jmény nebo jejich součástí, se z praktických důvodů při strojovém zpracování (zvl. při abecedním třídění) jako lemmata nerozlišují. V jednom lemmatu tak soustředíme i podoby, v nichž dochází ke kolísání v psaní počátečního písmene (modrá / strana × Modrá / strana). Příklad:

černý

černá

černé

černého

černém

černí

černou

1

18

2

1

1

3

černý

černých

Černých

černým

Černým

12

3

4

2

1

48

Frekvenční údaj u lemmatu daný součtem slov se týká všech slov dohromady, ať jsou psána s písmenem velkým nebo malým. Celkové součty doplňují však zvláštní součty pro podoby s písmenem velkým a malým. Stejným způsobem postupujeme i u slov, která třebaže nejsou vlastními jmény, mohou se psát s počátečním velkým písmenem: Bůh, Pán, Panna, Sudba, Pomsta. Adjektivní podoba ženská může být [166]v případě vlastních jmen i samostatným lemmatem, např. jména obcí Krásná, Suchá, Borová (lemma Suchá, forma Suchá, a lemma suchý, forma suché, suchým).

Při lemmatizaci souslovných vlastních jmen, jako Krásné Pole a Staré Hamry, řadíme Krásné pod krásný, Pole pod pole, Staré pod starý, výraz Hamry zůstává jako lemma, protože není v textu obecné hamr. U vlastních jmen sjednocujeme v jedno lemma i jména, která jsou v obměnách v různém rodě, typu skloňování apod., jako Datyně, Datyň.

Jména osob zpracováváme obdobně. Podoba jména zůstává zachována i v lemmatu (tedy Dombrovský, nikoli Doubravský). V případě, že jde o záměrné obměny jména, soustřeďujeme tyto varianty v jedno lemma (např. Bernard Žár a Bernard Žor, obě podoby, Žár a Žor, pod lemmatem Žár).

Cizí slova citátově užitá (nikoli slova přejatá) v podstatě nelemmatizujeme, neboť jako lemma uvádíme tvar, v kterém se nacházejí v textu. Např. z dvojverší, v němž je něm. text Lege dar, wo mährisch Blut hier — vielleicht geh ich, slova lege a geh jsou uvedena i jako lemmata, a ne pod něm. infinitivy legen, gehen. Z lat. Praga caput regni výraz regni je jako základní, a ne regnum. Výjimku tvoří případy, kdy v textu je několik tvarů téhož slova; pak je soustřeďujeme pod základní tvar cizího jazyka. V Bezručově textu není cizích slov mnoho, jen několik citátově užitých slov německých nebo latinských. Teprve zpracování jiných textů bude pravděpodobně vyžadovat širšího řešení otázek lemmatizace cizích slov.

Jako nejvážnější překážka rychlého a spolehlivého automatického zpracování textu se jeví homografie. Skutečnost, že jedna slovní forma náleží dvěma nebo více lemmatům, je totiž dosti častá. Lexikální homonymie při strojovém zpracování textů proti běžnému chápání a povědomí homonymních jednotek (kolej × kolej [studentská kolej]) se orientuje především na rozsáhlou oblast homografie, která spočívá na shodě tvarů různých slovních druhů nebo různých morfologických typů (děl od dělo a díti; kosa od kos a kosa). Při morfologické charakterizaci jednotek textu se musí pracovat s homonymií v tvarech paradigmatu.[9] V naší práci v této etapě potřebujeme zatím rozlišit jen skutečné lexikální homografy. Lexikální homografie se týká jak slov textu, tak i lemmat, např. lemma (1) ráno (subst.) a (2) ráno (adv.) neexistuje jako homograf v textu. Subst. ráno je pouze ve tvaru ránu, což je homografem k formě ránu od subst. rána.

Naše řešení uvedených otázek (a řady dalších drobnějších poznatků, které shrnujeme do pracovních směrnic) nechceme pokládat za definitivní a uzavřené. Chtěli jsme pouze naznačit, o jaké okruhy otázek při lemmatizaci textů Slezských písní šlo, a pokusit se zobecnit naše zkušenosti pro práci s textem pomocí strojů vůbec.


[1] Vydala Socialistická akademie v Ostravě 1959. Přímou předlohou byly automatické výstupní výpisy elektrického psacího stroje Consul, které vznikly transformací kódovaných záznamů na děrných štítcích. Svazek obsahuje vedle konkordančního a frekvenčního indexu i index vlastních jmen, informaci o způsobu zpracování indexů a instrukci k jejich užívání; ediční poznámky shrnují textové rozdíly poválečných vydání, která nebudou individuálně zpracována. Publikace obsahuje i cizojazyčné úvody (angl., fr., něm.). — Jako základní jsme po dohodě s bezručovskými odborníky zvolili vydání „poslední ruky“ z r. 1957. K této volbě vedl především požadavek, aby základní text byl co nejkompletnější.

[2] Bližší údaje o způsobu záznamu a zpracování textů a metodologii lemmatizace obsahuje informace J. Štindlové Záznam a zpracování textu pomocí strojů, SaS 31, 1970, 64—70.

[3] J. Jelínek — J. V. Bečka — M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961, s. 22—25.

[4] Rádi bychom při této příležitosti poděkovali prof. V. Fickovi, znalci textu Slezských písní, za pomoc v teoretických úvahách i při praktické realizaci.

[5] Při lemmatizaci je třeba vždy se důsledně opírat o nějaké lexikografické dílo. Pro nás je tímto dílem právě vycházející Slovník spisovného jazyka českého (SSJČ).

[5a] Přehled problematiky textové kritiky a možností využívat při ní strojů přináší publikace J. Frogera La critique des textes et son automatisation, Paris 1968; srov. též A. Vidmanová, Středolatinská textová kritika a počítací stroje, LF 92, 1969, 28—35.

[6] Tato praxe je v tradiční lexikografické technice běžná (takto slučuje heslové podoby např. citovaný frekvenční slovník), při strojovém zpracování není zcela obvyklá.

[7] A to i v případě, že Bezruč sám derivaci melčský nepokládal za správnou.

[8] Ve vyd. z r. 1957 je však vedle cymbál i cimbálek.

[9] Zde je možno navázat např. na práce M. Těšitelové O morfologické homonymii v češtině, Praha 1966 a P. Sgalla Generativní popis jazyka a česká deklinace, Praha 1967.

Slovo a slovesnost, ročník 31 (1970), číslo 2, s. 161-166

Předchozí Alena Macurová: Slovenský příspěvek k otázkám jazykové kompozice

Následující Marie Ludvíková: Fonologická statistika rumunštiny a několik jazykově typologických srovnání