Časopis Slovo a slovesnost
en cz

Lexikální indexy a jejich strojové zpracování

Jitka Štindlová

[Rozhledy]

(pdf)

Лексические индексы и их машинная обработка / Indexes lexicaux et leur élaboration automatique

Moderní technické prostředky umožňují v jazykovědě rychle a ekonomicky realizovat úkoly, které jsou ve své podstatě pracemi mechanickými. Takovými úkoly je především sestavování a uspořádávání různých lexikálních indexů, které často slouží jen jako pracovní pomůcky při tvorbě velkých lexikálních děl; publikují se jen některé z nich. Především seznamy slov uspořádané abecedně od konce slov k jejich počátku — tzv. retrográdní slovníky — se zveřejňují, protože jejich využití pro širší odbornou veřejnost při praktických i teoretických pracích je nepochybné.[1]

Retrográdní slovníky v běžném pojetí jsou vlastně jen indexy slov, uspořádané abecedně odprava doleva. Orientaci v takto sestaveném slovníku napomáhá grafická úprava — slova jsou vertikálně zarovnána vpravo, písmena jsou tak vždy ve stejné pozici poslední, předposlední atd.

V této informaci se soustřeďujeme na tři publikovaná díla tohoto charakteru: na retrográdní slovník makedonštiny — V. Miličik’a Obraten rečnik na makedonskiot jazik (vyšel r. 1967 ve Skopji jako publikace Ústavu makedonského jazyka — Institut za makedonski jazik „Krste Misirkov“), retrográdní slovník maďarštiny — F. Pappa Reverse-alphabetized dictionary of the Hungarian Language (r. 1969 vydalo v Budapešti akademické nakladatelství) a soubor indexů pro angličtinu — J. L. Dolbyho a H. L. Resnikoffa The English Word Speculum (Mouton, Haag-Paris 1967).

Obraten rečnik na makedonskiot jazik sestavil Vladimir Miličik’, redigovali Kiril Konecki a Aleksandar Čukecki. Lexikálním podkladem, z něhož se při sestavování vyšlo, je třísvazkový Slovník makedonského jazyka vydávaný stejným ústavem v l. 1961, 1965, 1966. Index obsahuje 64 578 hesel (tištěných ve čtyřech sloupcích). Vlastního indexu je celkem 325 stran. V porovnání s předlohou nejsou zaznamenány pravopisné varianty, dubletní psaní spřežek (psané zvlášť), afixy, části složenin a příčestí minulá zakončená na -l, které předlohový slovník uvádí jako samostatná hesla. Rozlišeny jsou homografy a speciálním znakem (hvězdičkou) jsou označena slovesa, která jsou nebo mohou být i reflexívní.

V samostatném dodatkovém indexu (s. 329—354) jsou uváděna slova s označeným [73]přízvukem. Připojen je (na s. 355—387) i přehled udávající frekvenci koncových grafémů a frekvence koncových digramových a trigramových skupin.

Vstupními doklady pro strojové zpracování byly děrné štítky; do štítků se pomocí latinské abecedy (26—28 znaků) děrovaly abecední záznamy podle speciálního klíče (vždy pro každý makedonský grafém byly rezervovány dva sloupce a v nich speciální makedonská písmena se zaznamenávala kombinacemi latinských znaků). Dva sloupce, dvě informační jednotky pro každé písmeno (i nemodifikované latinské) byly zvoleny proto, aby bylo usnadněno abecední třídění. Zpracování se uskutečnilo během šk. roku 1965/66 v USA (Computing Center of Western Washington State College, Bellingham, Washington) na počítači IBM 1620. Abecední údaje ze štítků byly transformovány — každý znak dvě dekadická čísla — tedy celkem čtyři číslice pro jeden znak. — Slovník je jednoduchý, zcela jasný, přesný prostý index. Jeho přehlednost je jistě i zásluhou pěkné grafické úpravy a pěkného tisku.

Maďarský retrográdní slovník Reverse-alphabetized Dictionary of the Hungarian Language s pomocí záznamů na děrných štítcích zpracoval Ferenc Papp. Slovník o rozsahu 594 s. (vlastní index 537 s.) se poněkud odlišuje od publikovaných retrográdních slovníků. Jde sice rovněž o retrográdně uspořádaný lexikální materiál — heslová slova (58 323) sedmisvazkového výkladového slovníku maďarštiny (A magyar nyelv ertelmezö szótára, vycházejícího v l. 1959—1962), ale je provázený řadou informací v podobě číselných klíčů. Je tedy produktem smíšeným, v němž princip retrográdního abecedního uspořádání jen dominuje. Z úsporných důvodů se totiž nepřistupuje k publikování individuálních indexů uspořádaných podle různých gramatických kritérií. Gramatické informace v číselných klíčích doplňují hesla indexu. Kromě abecední podoby heslového slova je uvedena slovnědruhová příslušnost a strukturní charakteristika (složeno z x kmenů) a u jednotlivých slovních druhů i bližší gramatické charakteristiky kmenů i sufixů.

Klíčování údajů provedli studenti, klíče pro derivační sufixy zaznamenal L. Jakab a speciální kód pro záznam charakteristik u sloves zpracoval S. Jánoska. Slovník byl sestaven ve statistickém středisku v Budapešti na strojích IBM. Pro abecední uspořádání bylo užito dvojího abecedního třídění. Pro koncovou pozici byl zvolen abecední postup fonémů. V ostatních pozicích mimo poslední se řadí každý grafém jako jednotka (tedy i součásti spřežek). To dovoluje i ve statistických přehledech, které jsou na s. 538—595, pracovat s fonémy v posledních pozicích. Pro koncové digramy, trigramy a tetragramy (alespoň 343 nejfrekventovanějších) se však už vychází jen z grafémů. Jistě by bylo velmi výhodné a pro využívání heslářů užitečné, kdyby celá verze retrográdního uspořádání spočívala na fonologickém principu abecedního pořadí (spřežky — jeden znak). To je ovšem pro strojové zpracování bez výchozího speciálního záznamu dost obtížné. Je tedy pak otázka, zda by nebylo výhodné zachovat jednotný princip i pro koncové pozice. (V nich se dá snadno i s fonologickými interpretacemi grafémů pracovat.) Pro postižení struktur lexikálních jednotek maďarského slovníku bylo třeba vyčleňovat kmeny. To je jistě pro vyčerpávající lexikální materiál (a ne jen ukázkově vybraný) úloha obtížná. Disproporce se ukazují např. ve zpracování slov přejatých a domácích. Diachronní hledisko se celkem zbytečně uplatňuje v dělení pseudohomonym a homonym (jen těch slov, kde shodné formě dvou slov odpovídá dvojí různý původ), které zachovává index podle předlohového slovníku.

Statistické tabulky vedle přehledů o frekvenci a distribuci grafémů v zakončeních slov přinášejí i přehledy o distribuci slov se zřetelem k délce. (Nejvíce slov je osmipísmenných, nejdelší slovo obsahuje 24 písmen; jednopísmenných je 62.) Zajímavý je i přehled (vždy tabulka a diagram) uvádějící distribuci slov podle počtu významů. (29 375 slov v předlohovém slovníku je reprezentováno jen jedním významem, tj. 50,37 %; dva významy má 15 457 slov; jedno slovo, a to is, je uvedeno [74]se 101 významem; 99,6 % materiálu vyčerpávají slova, která mají 1—9 významů; necelé 1 % z daného lexikálního materiálu jsou slova s 10 a více významy.[2])

Maďarský slovník ukazuje exemplárně nové možnosti realizace retrográdního uspořádání při využití moderních technických prostředků, ale v publikování zůstává jen na poloviční cestě. Přednosti strojového zpracování nacházíme markantněji v indexech pro angličtinu.

The English Word Speculum je pětisvazkový soubor indexů (asi 350 s., každý svazek formátu 21×27,5 cm), které dokládají strukturní vlastnosti anglické slovní zásoby.[3] Jejich publikace (reprodukcí strojových výstupních výpisů) je zamýšlena jako doplněk standardních slovníků a má cenu především pro lingvisty a studující angličtiny. Autoři J. L. Dolby a H. L. Resnikoff vybrali pro knižní zveřejnění alespoň některé z celé řady možných uspořádání a konfrontování heslových slov (73 583) dvou základních anglických lexikálních děl, a to slovníku Shorter Oxford English Dictionary (dále X) a the Merriam Webster New International Dictionary - Third Edition (dále W). Kompletace základních informací těchto dvou slovníků poskytuje široký přehled o lexikálním systému s diferenciací lexikálních jednotek v časovém rozmezí padesáti let v teritoriálním vymezení britského a amerického úzu.

Výchozí záznamy pro strojové práce jsou realizovány na děrných štítcích. Informace se na nich soustřeďují v osmi informačních polích: (1) heslové slovo, (2) retrográdní podoba (nikoli jen poloha heslového slova), (3) počet samohlásek nebo samohláskových skupin v heslovém slově, pokud není souslovím - B (Broken), neobsahuje apostrof - A, není prefixem - P, není sufixem - S, není jednotkou psanou s tiretem -H (hyphenated). Tyto abecední znaky totiž v těchto případech nahrazují čísla udávající počet samohlásek; (4) lexikální norma heslového slova (status) v podobě informace, zda oba slovníky uvádějí jako běžné - B (Both Dictionaries) nebo jen X nebo jen W (bez označení zůstávají slova, která podle obou slovníků vůbec nemají neutrální stylisticky nepříznakové užití); (5) charakteristika slovnědruhová a stylistická podle X; (6) charakteristika slovnědruhová a stylistická podle W; (7) údaj o slovním druhu a lexikální normě; vzniká konfrontací údajů ve všech pozicích polí 5 a 6; (8) pořadové číslo, které se vytváří průběžným očíslováním záznamů vstupních hesel. Očíslování slov nereprezentuje přímé abecední pořadí, ale usnadňuje práci na doplňcích a opravách chyb.

Poznámka o záznamech v polích 5 a 6: Pro každý z obou slovníků je rezervováno deset pozic pro vyjádření informace o slovnědruhové příslušnosti (1 - substantivum, 2 - adjektivum, 3 - verbum, 4 - adverbium, 5 - prepozice, 6 - spojka, 7 - pronomen, 8 - interjekce, 9 - minulé příčestí, 10 - ostatní, včetně kolektivních substantiv, plurálových tvarů, členů atd.). Tyto horizontálně rozvržené informace se vyjadřují pozicí dalšího záznamu, a to v abecedním kódu transformované stylistické hodnoty heslového slova: A - archaismy, C - vždy nebo obvykle s velkým počátečním písmenem, D - nářeční (dialektické, oblastní, např. skotské, v americké angl. apod.), E - ironické, F - cizí nebo přejaté slovo, H - řečnické, N - nesmyslné slovo, O - zastaralé, Q - hovorové, R - řídké, S - běžné, W - příležitostné, Z - nespisovné, $ - termín.

Stojí-li tedy např. na druhém místě těchto polí O, znamená to, že slovo je zastaralé adjektivum; pokud existuje jako substantivum a je užíváno běžně, objeví se na prvním místě S.

[75]Vytvořené indexy vycházejí ze stejného repertoáru slov a mají všechny shodnou grafickou podobu. Liší se v podstatě nikoli výběrem lexikálního inventáře, ale jeho uspořádáním.

I. díl The Random Word List obsahuje úplný repertoár heslových slov obou slovníků (73 582) ve speciálně připraveném náhodném uspořádání, které má ukázat v kterémkoli úseku poměrné zastoupení strukturních slovotvorných elementů i zastoupení každého z „klasifikačních“ hledisk (slovní druhy, stylové charakterizace apod.). Pro jeho sestavení vytvořil Daniel Drew speciální metodiku využívající Rotenbergův způsob generování pseudonáhodných čísel.[4]

Index umožňuje kdekoli náhodně vyjmout příklady a jejich strukturní proporce a zastoupení v takovéto ukázce má reprezentovat skutečný výskyt v lexikálním systému zachyceném předlohovými slovníky. Např. vzdálenost dvou slov s apostrofem reprezentuje poměrné zastoupení slov s apostrofem v celém slovníku; nebo skutečné zastoupení různě dlouhých slov v slovníku je možno vyčíst z nahlédnutí do kterékoli stránky indexu; ukazuje to jejich poměrné zastoupení v ukázce; obdobně poměrné zastoupení např. sloves atd. Toto pseudonáhodné uspořádání bylo průběžně očíslováno a tato čísla u hesel nahrazují původní průběžné číslo zaznamenaného dokladu. Zdá se, že knižní zveřejnění celého takto náhodně uspořádaného slovníku slouží vlastně jen jako důkaz, že se pracovalo s úplným materiálem. Vždyť kterýkoli úsek musí ukazovat totéž a stačilo by tedy několik rozsáhlých ukázek nebo dokonce jen jedna. Pro jiné účely index jako celek neslouží. Nedá se v něm prakticky hledat.

V dílech II—V se zpracovávají jen slova příslušející k základním slovním druhům, a tedy jsou rozsahem o něco menší (66 439 slov). II. díl The Forward Word List obsahuje několik abecedně uspořádaných indexů. Index slov obsahujících apostrof, souslovná pojmenování, slova psaná s tiretem a indexy slov uspořádaných sice abecedně, ale vždy ve skupinách podle různého počtu samohlásek a samohláskových skupin (vowel — string — count), tedy v podstatě slov s různým počtem slabik. V indexu vedle normální podoby stojí informativně i retrográdní podoba a řada kódovaných charakteristik polí 3, 4, 5, 6, 7. Index umožňuje především poznat strukturní poměry v slovní zásobě angličtiny, např. množství a charakter jednoslabičných anglických slov.

III. díl The Reverse Word List je obdobou sady indexů 2. dílu, ale abecední uspořádání je provedeno v retrográdních podobách. Tyto indexy poskytují především přehled o strukturních poměrech v zakončení anglických slov. Je třeba si položit otázku, zda je nutné a hlavně výhodné slova obracet (poslední písmeno se stává prvním). Získá se sice možnost řadit slova odleva, ale vytvářejí se z nich nesmyslná slova. Snad je vhodnější jen zajistit přesné pozice slov pro možnost abecedně třídit odprava. Pokud se v tisku objevují retrográdní podoby v těsném sousedství výchozího slova, jako je tomu v případě těchto indexů, není to zcela nevýhodné. Je však nemyslitelné publikovat vytvořené retrográdní podoby izolovaně.

IV. díl The Double-Standard Word List jsou normálně i retrográdně uspořádané indexy jen běžně užívaných slov z obou slovníků, tj. těch, která jsou označena S (standard). Je jich 34 302; jsou uspořádána abecedně ve skupinách podle počtu samohlásek a jednotlivých slovních druhů.

Tímto uspořádáním jsou podstatně vyloučeny nestandardní nepravidelnosti anglic[76]ké slovní zásoby. Do užších indexů je zde vymezena slovní zásoba běžná jak pro britský, tak i americký úzus.

V. díl The Reverse Part of Speech Words List vznikl přestavěním sestav 3. dílu. V abecedním uspořádání ve skupinách podle počtu samohlásek jsou uváděna samostatně slova jednotlivých slovních druhů. Vznikl tedy informativní materiál pro práci se slovní zásobou jednotlivých slovních druhů.

Publikované indexy jsou informativní pomůckou pro jazykovědné studie lexikální i gramatické. Bohužel ani zdaleka ne všechny sestavy, které by bylo možné a zajímavé z tohoto materiálu vytvořit, jsou v těchto pěti svazcích publikovány. Jejich knižní zveřejnění by si vyžádalo ještě značných nákladů. Domníváme se, že autoři vybrali sestavy užitečné, přinášející významné informace v oblasti struktury anglické slovní zásoby.

Recenzované publikace ukazují, jak strojové zpracování dává nové možnosti uplatnění a zcela nový charakter pomocným jazykovědným pracím. Důkazem toho je dnes už „tradiční“ úloha — sestavení retrográdního slovníku.

Jistě je třeba litovat, že prakticky není možné pohotově zpřístupňovat všechny specializované sestavy, které počítač snadno připraví, a že vlastně každý z publikovaných indexů je kombinací mnoha možných uspořádání, v nichž ovšem staticky převládá jedno. To znamená, že se v každém indexu může mnoho informací nalézt, ale že je třeba v nich pracně hledat.


[1] V našem časopise (SaS 27, 1966, 370—374) jsme již recenzovali čtyři publikované retrográdní slovníky, které byly připraveny pomocí strojů (M. L. Alinei, Dizionario inverso con indice a liste di frequenza della terminazioni, Haag 1962; A. F. Brown, Normal and Reverse English Word List, Filadelfie 1963; E. Mater, Rückläufiges Wörterbuch der deutschen Gegenwartssprache, Berlín 1965; A. Juilland, Dictionnaire inverse de la langue française, Haag 1965).

[2] Obdobná data pro česká podstatná jména jsou publikována v Prague Studies in Mathematical Linguistics 2, Praha 1967, 121—131 v studii M. Těšitelové On the role of nouns in lexical statistics.

[3] Revue Computers and the Humanities (1969, 4. sv., 2. č., s. 143—146) přináší recenzi této publikace od W. N. Francise English Words Mirroded.

[4] V odkazu se objevuje tato literatura: D. B. Owen, Handbook of Statistical Tables, Addison-Wesley 1962, s. 519—538; A. Rotenberg, A New Pseudo-Random Number Generator, Journal of the Assoc. for Computing Machinery, sv. 7, 1960, s. 75—77; A. M. Mood, Introduction to the Theory of Statistics, New York 1950, s. 235—236.

Slovo a slovesnost, ročník 32 (1971), číslo 1, s. 72-76

Předchozí Jarmila Panevová: Nové svazky sborníku Mašinnyj perevod i prikladnaja lingvistika

Následující Josef Vachek: Nový příspěvek k obecným otázkám pravopisu