Časopis Slovo a slovesnost
en cz

Využití strojů při zkoumání češtiny

Jarmila Panevová

[Rozhledy]

(pdf)

Использование машин при исследовании чешского языка / Utilisation des machines dans l’examen du tchèque

Dnešní jazykověda musí řešit nové teoretické i praktické úkoly, které před ni postavil strojový překlad i jiné způsoby automatického zpracovávání informace z textu. Zároveň může z hlediska nových metod a jejich aplikací rozvíjet a prohlubovat řešení některých úkolů dosavadních, jako je srovnávání jazykových systémů, zjišťování normy jazyka, zkoumání mluvené podoby jazyka, jazykové vyučování apod. Všechny tyto úkoly vyžadují přesného zpracování velkého množství materiálu obdobnou metodou, s využitím statistických postupů, s podrobným mnohastupňovým jeho tříděním podle kvalitativních i kvantitativních znaků.

[223]Takové zpracování umožňují dnes již existující technické prostředky. Jsou to jednak stroje na děrné štítky, používané k pořizování statistik a k třídění materiálu, jednak samočinné počítače, na nichž je již nyní možno vyzkoušet algoritmy pro strojový překlad i jiné matematickologické modely jazyka. V budoucnu bude možno využít jich v lingvistice ještě v daleko větší míře. Lingvistice nedaleké budoucnosti se otvírají další možnosti i použitím jiných strojů, např. analyzátorů, kterými bude možno zjišťovat kvantitativní charakteristiky, hlavně frekvenci písmen pro teorii informace apod.

Na možnosti využití děrnoštítkových strojů a jiných strojů na zpracování informací ukázala již J. Štindlová.[1] O ukládání materiálu, kterého používají ve Fonetickém kabinetu ČSAV při zkouškách srozumitelnosti, na děrné štítky a o výhodách tohoto způsobu psaly B. Borovičková a J. Novotná.[2]

V našem článku se chceme zaměřit na konkrétní výsledky práce s těmito stroji a na zkušenosti nabyté zejména v oddělení pro teorii strojového překladu filosofické fakulty KU (dále jen OTSP) při pořizování statistických údajů o hláskových, morfologických i lexikálních jednotkách jazyka. Ve spolupráci s katedrou výpočetní a organizační techniky Vysoké školy ekonomické v Praze a n. p. Aritma sestavilo OTSP pomocí děrnoštítkových strojů frekvenční slovník z matematických textů.

Z osmi různých matematických knih bylo náhodným výběrem vyexcerpováno, resp. vyděrováno na štítky 250 stran textu. Takto vyexcerpovaná slova byla na třídiči roztříděna podle abecedy. Další ze soupravy děrnoštítkových strojů, tabelátor, z roztříděných štítků údaje „přečetl“ a vytiskl v abecedním pořadí. Tabelátor je spojen s počitadly, takže pro údaje snímané ze štítků vytváří automaticky součty, které spolu se slovními tvary tiskne. Výsledkem tohoto zpracování je frekvenční slovník 51 341 tvarů. Odtud je možno získat i základní údaje o frekvenci tvarů a koncovek na daném úseku, které jsou důležité např. při sestavování algoritmů pro strojový překlad.[3]

Z takto získaných údajů o frekvenci tvarů lze snadno sečtením jednotlivých četností, tzv. totálů,[4] získat frekvenci slov jako lexikálních jednotek. Tak 51 341 slovních tvarů reprezentuje 3 048 různých lexikálních jednotek.

Největší počet slov má frekvenci v intervalu 1—100. Frekvenci v intervalu 100—500 má 76 slov, v intervalu 500—1 000 už pouze 9 slov. Vyšší četnost mají jen 3 slova (sloveso být — 3 279, spojka a — 1 508, předložka v — 1 315). Mezi slovy s nejvyšší četností je většina slov gramatických, ze slov lexikálních mají nejvyšší frekvenci substantiva bod — 878, věta — 447, číslo — 427. 1 052 slov se vyskytlo v textu pouze jednou. Srovnání s frekvenčním slovníkem češtiny[5] (dále jen FS) potvrzuje, že u tří nejčastějších slov společných slovní zásobě všech jazykových stylů a útvarů jsou to výsledky obecně platné. I ve FS jsou jako nejfrekventovanější uváděna slova být a a, pouze v opačném pořadí, což je způsobeno odlišnými tabulačními zásadami. Před předložkou v(e) uvádí FS v pořadí slov podle frekvence pouze zájmeno ten, které se však vyskytuje hlavně v beletrii a v dramatech, v odborných textech je jeho výskyt podstatně nižší, takže i zde lze výsledek pokládat za shodný.

Mezislovní homonymie je v matematických textech poměrně malá; je tu asi 45 tvarů, které jsou homonymní s tvarem jiného slova. Ve většině případů lze s velkou pravděpodobností bez kontextu určit, o které slovo jde (např. u slov čáry, druh, míru atd.), takže homonym, kde se bez kontextu neobejdeme, je pouze několik (např. se — zájmeno a předložka).

[224]Jedině pomocí děrnoštítkových strojů mohl být v poměrně krátké době zpracován materiál dostatečně rozsáhlý pro výzkum vhodného kódování češtiny. Více než 10 000 „kmenů“ slov bylo uloženo na děrné štítky a pomocí třídiče rozděleno nejprve do skupin podle počtu písmen, uvnitř těchto skupin pak postupně podle všech jednotlivých pozic. Tím bylo umožněno vypočítat entropii písmen, zjistit míru informace v jednotlivých písmenech a na tomto podkladě pak určit optimální způsob kódování.[6]

Na děrnoštítkových strojích se v OTSP začala zpracovávat i česká morfologie; zatím bylo zpracováno a roztříděno 5 000 slovesných tvarů.[7] Vedle vlastního tvaru byly na štítek v určitém klíči vyděrovány i gramatické údaje. Tak bylo zjištěno, které tvary jsou v matematickém textu nejfrekventovanější a jaké důsledky je nutno z toho vyvodit při sestavování algoritmů pro strojový překlad.[8] Podobná statistická šetření se budou provádět i pro deklinaci.

Nyní se v OTSP připravuje rozsáhlejší excerpce z elektrotechnických textů, která se ukládá na děrné štítky. Excerpční sbírka bude uspořádána tak, aby sloužila jako součást materiálu pro podrobnou a jednotnou analýzu češtiny.

Na jednu polovinu děrného štítku se ukládá podoba slova z textu, pomocná slova se zaznamenávají jako složky slov významových. Na druhou polovinu štítku se ukládá celková analýza slovního tvaru, morfologická i syntaktická, jako např. koncovka, alternace ve kmeni, morfologická sémantika, platnost větně členská i postavení ve významové výstavbě věty (děj, činitel, zasažený předmět aj.), dále sémantický slovní druh, tj. slovní druh výchozí, který se pouze syntaktickou derivací transformuje v jiný slovní druh. Např. substantivu plánování přiřazujeme sémantický slovní druh sloveso, adverbiu hluboko sémantický slovní druh adjektivum ap. Takto podrobné zachycení údajů u slov a jejich tvarů umožní bohaté a rozmanité kombinace třídicích hledisek.

Sbírky excerpt bude možno použít jako materiálu pro zpracování české morfologie i syntaxe a získat poměrně spolehlivý přehled o vztazích funkcí a příslušných prostředků různých jazykových plánů, včetně údajů kvantitativních (např. za jakých podmínek a jak často se koncovky -u užívá v genitivu nebo v dativu atd., kdy je ten nebo onen pád nositelem té které syntaktické funkce, jak často je v textu určitého typu syntaktickým subjektem činitel děje atd.). Nutnost zavedení jednotného předpisu, podle něhož se materiál zpracovává pro děrování, vede k odhalení nejednoznačnosti a nedostatečné přesnosti některých tvrzení obecně přijatých v české gramatice. Údaje, které na děrné štítky zachycujeme, byly voleny v souvislosti s konstruováním převodního jazyka pro strojový překlad, který vyžaduje, aby z hlediska jednotného souboru základních kategorií byl zpracován velký počet jazyků.

Převedení takového množství údajů na děrné štítky je technicky poměrně náročné. Především je třeba účelně rozmístit údaje do děrných sloupců a vhodně stanovit klíč. I pro gramatické údaje volíme klíč zpravidla abecední, neboť zatímco různých číselných znaků můžeme na jeden sloupec umístit 10, abecedních znaků se vejde na děrný sloupec 29; tím mnohonásobně vzrůstá kapacita děrného štítku. Pro úsporu místa neukládáme jednotlivé kategorie na zvláštní sloupec, ale vytváříme z nich vzájemně se vylučující kombinace, které lze uložit na jeden děrný sloupec, který obsáhne 29 různých údajů. Máme např. jeden sloupec pro kombinaci pádu a čísla, pouze jeden sloupec pro kombinování slovesného způsobu a rodu ap. Další úspory lze dosáhnout tím, že na sloupcích, kde je např. pro adjektiva a adverbia údaj o stupňování, mohou být jiné gramatické informace pro ostatní slovní druhy, které stupňování nemají. Je to možné proto, že prvním třídicím hlediskem bude pravděpodobně ve většině případů slovní druh.

Děrnoštítkových strojů využíváme i při zkoumání běžně mluveného jazyka; údaje o obecně českých a spisovných prvcích v 3 000 jednoduchých vět z nepřipravených projevů [225]v některých rozhlasových reportážích byly vyděrovány ve zvláštním numerickém klíči na děrné štítky (na každém štítku jedna věta) a roztříděny podle jevů hláskoslovných, tvaroslovných i některých jevů syntaktických.[9]

Již od r. 1950 se dějí v zahraničí pokusy využít samočinných počítačů pro automatický překlad odborných textů z jazyka do jazyka. V r. 1960 byl předběžný pokusný překlad proveden i u nás, na samočinném počítači čs. výroby SAPO.[10] Výzkum strojového překladu od té doby pokračuje. V současné době je pro přezkoušení algoritmů strojového překladu k dispozici samočinný počítač LGP-30, s kterým se pracuje v Centru numerické matematiky matematicko-fyzikální fakulty KU v Praze; tento počítač má paměť o 4 096 místech, proto se pro překlad z jazyka do jazyka nehodí. K prozkoušení jednotlivých částí algoritmu je však přesto vhodný; pokusy na něm ověřují úplnost i úspornost algoritmu, ukazují na dosud nezpracované problémy a potvrzují možnost a nutnost experimentu v jazykovědě.

Nyní se na LGP-30 zkouší algoritmus syntézy české deklinace.[11] Syntéza při strojovém překladu je poslední etapa, kdy morfologická i syntaktická analýza věty v jazyce vstupním je už provedena. Vychází se při ní z výsledků analýzy a vytváří se příslušný ekvivalentní text v jazyce výstupním. Syntézu skloňování probíhající ve stroji můžeme pokládat za model pro tvoření správných tvarů z daného kmene a zadání pádu a čísla podle deklinačních tabulek, jak je tvoří člověk v cizím jazyce. Do stroje byla uložena poměrně jednoduchá síť instrukcí, které určují, jak stroj hledá v tabulce koncovek podle informace o slovním druhu, čísle, pádu, vzoru a indexu, které si při překladu vyhledá jednak ve slovníku, jednak v paměti stroje, kde jsou zachyceny jako výsledek analýzy vstupního textu. Pro pokusy na počítači LPG-30 není však možno uložit slovník kmenů a k němu veškerou slovníkovou informaci (o slovním druhu, vzoru, indexu a typu nepravidelnosti, u substantiv též o rodu), na to kapacita paměti nestačí. Proto jsou tu místo slovníku uložena tzv. čísla typu, jimiž rozumíme kombinování každého ze vzorů s každým ze sedmi možných indexů (pokud se taková slova mohou v češtině vyskytnout). Index označuje některé typy alternací, např. výskyt pohybného -e- před poslední souhláskou kmene, krácení kmenové samohlásky apod. Jako zvláštní typ bude nutno prozatím, pokud není slovník kmenů, zachytit i nepravidelnosti ve skloňování, pokud se ovšem v odborném textu vyskytují. Rozlišujeme tedy v algoritmu české deklinace vedle vzorů i typy.

Dělení substantiv na vzory musí být pro tyto účely značně podrobnější, než tomu bývá v našich mluvnicích psaných pro Čechy. Není možné, aby stroj např. skloňoval správně všechna neživotná substantiva s kmenem na tvrdou souhlásku a s nulovou koncovkou v nom. sg., kdybychom uvedli pouze vzor hrad. Je nutné, aby tu např. jako zvláštní vzory byla uvedena substantiva les, krok, proud; vedle vzoru nůše zavedli jsme ještě vzor ulice, lišící se jen v gen. pl. Pro životná substantiva zakončená na tvrdou souhlásku uvádíme vzory pán, občan, hoch, ekonom, stratég, které mají v některých pádech odlišné koncovky (např. v nom. a v lok. pl.) a přitom žádné dva z nich nemají všechny pády stejné. Strojová syntéza vyžaduje, abychom si povšimli vedle variant koncovek u různých substantiv jednoho vzoru (ve smyslu mluvnic) i různých variant změn uvnitř kmene, a proto jsme zavedli rozdělení vzorů na typy. Jeden vzor může obsahovat několik typů. Např. vzor žena se dělí na typy: žena (bez alternací), matka (s pohybným -e- před poslední souhláskou kmene), mzda (pohybné -e- se vsouvá před předposlední souhlásku kmene), rána (krácení ve všech tvarech, kde je to možné), houba (krácení jen v gen. pl.). Nestačí konstatovat, že v češtině jsou různé typy krácení kmenové souhlásky, ale je třeba uvést, u kterých vzorů ten který typ krácení nastává a u kterých nikoli, neboť některé alternace jsou vázány na jistý vzor, ne jen na fonologické rysy kmenů.

Podobné problémy uspořádání a utřídění gramatických jevů vznikají i při zpracování slovesa. Pro stroj je nutno zavést takové kategorie, aby z nich bylo možno sestavit každý tvar. Naše mluv[226]nice např. o vykání mluví jako o množném čísle, ač v češtině máme pro jeho vyjádření zvláštní formu; ve složeném tvaru je příčestí na rozdíl od jiných jazyků, např. od ruštiny, v jednotném čísle. Proto při strojovém překladu musíme slovesnou formu vykání označit jako zvláštní osobu. — V našich mluvnicích se zpravidla uvádí, že infinitiv vyjadřuje jen slovesný rod a vid, ač vyjadřuje i rod jmenný (považujeme-li za infinitivní i formu pasívní být veden, -a, -o atd., což je pojetí v našich mluvnicích běžné). Přínosem algoritmického zpracování morfologie je, že se zachytí na příslušném místě v systému všechny gramatické možnosti daného slova, varianty uvnitř vzoru, alternace, jejich morfologická i fonologická vázanost.

Pro zkoušku algoritmu syntézy se vkládá do stroje kmen substantiva,[12] číslo typu a zadání (tj. údaj o čísle a pádu, který chceme získat jako výsledek strojové syntézy); podle čísla typu, které zde nahrazuje slovník kmenů, vyhledává si stroj informaci o rodu, vzoru, indexu, popř. nepravidelnosti, podle nichž se řídí hledání v tabulce koncovek a alternací. Stroj provede naznačenou alternaci, vyhledá koncovku a výstupní informaci, tj. utvořený tvar slova a elektrický psací stroj pak přímo tiskne stránkovým tiskem v abecední podobě. To je zároveň experimentální spolehlivou kontrolou správnosti a úplnosti vloženého algoritmu. Nesprávně utvořený tvar svědčí o chybě nebo mezeře v algoritmu, popř. v programu.

Při zkouškách algoritmu syntézy jsme se prozatím spokojili s jedinou koncovkou v jednom tvaru, k dubletám zatím nepřihlížíme (např. substantivum vzoreček je zařazeno do vzoru krok, bude mít tedy lok. pl. pouze vzorečcích). Stylistické rozlišení typu na jazyku a na jazyce, banditi a bandité, dny a dnové nebude pravděpodobně pro odborné texty nutné.

Již zkoušení algoritmu podává základní obraz o kvantitativních poměrech v české deklinaci, o četnosti vzorů, koncovek a alternací. Tento obraz bude doplněn podrobnějším šetřením kvantitativních charakteristik pro českou deklinaci pomocí děrnoštítkových strojů. Potom bude možno definitivně uspořádat algoritmus (instrukce i způsob hledání v tabulce) tak, aby byl co nejúspornější a nejefektivnější. Předpokládá se, že v nejbližší době bude takto prozkoušena celá morfologická syntéza češtiny a postupně pak další algoritmy.[13]

Ještě v r. 1962 má být ve Výzkumném ústavu matematických strojů na novém moderním československém počítači EPOS proveden pokus strojového překladu a zpracovávání odborných informací podle algoritmu připraveného v OTSP. Při tomto pokusu bude vložený anglický text z oboru elektroniky nejen přeložen do češtiny, ale bude tu využito i informačního jazyka. Překlad do češtiny nebude už jen binární, jako tomu bylo u prvního pokusu, ale jako prostředník bude tu sloužit jakási elementární, zatím značně zjednodušená podoba převodního jazyka. Stroj přeloží text do této podoby převodního jazyka a přes ni pak do jazyka informačního. Příslušný algoritmus umožní zpracovat informaci obsaženou ve vloženém textu tak, že stroj bude moci odpovědět na otázky týkající se obsahu vloženého textu.

Odpověď na danou otázku předpokládá nejen zachycení struktury věty a gramatických vztahů mezi slovy, ale i propracování logických vztahů a formálně vybudovaný systém sémantiky. Pojmy se v informačním jazyce rozkládají na tzv. sémantické faktory (např. „televizor“ se rozkládá na „přístroj, přenos, obraz, zvuk“).[14] Pomocí algoritmu pro převedení do informačního jazyka se uchovávají a logicky zpracovávají shromážděné informace. Stroj pak bude odpovídat na otázky, které musí mít zatím určitou strukturu, např.: „Jaký je vztah mezi x a y?“, „Jaké vlastností má x?“ apod. Za x a y můžeme dosadit pojmy obsažené ve vloženém textu. Přechod k informačnímu jazyku prostřednictvím převodního jazyka je zvlášť vhodný, protože převodní jazyk už bude zachycovat obecné sémantické kategorie, které jsou jazykům společné. Definitivní podobu převodního jazyka bude však možno sestavit, až bude podle jednotných měřítek proveden důkladný rozbor většího počtu jazyků, než to doposud bylo možné.

[227]Rozšíření samočinných počítačů a první zkušenosti s jejich využitím v jazykovědě otevírá další perspektivy lingvistické práci. V budoucnu se jimi vyřeší řada úkolů, které dnes v souvislosti s přípravou jazykového materiálu pro zpracovávání ve stroji musí řešit člověk. Pomocí děrnoštítkových strojů se sice např. usnadňují mechanické složky odborné práce lingvistické, ale neodstraňuje se mechanická nekvalifikovaná práce. V budoucnu i takové úkoly vyřeší samočinný počítač. Zpracováním dlouhých textů na základě jednotných algoritmů zjistí rychle nejen potřebné statistické údaje, ale bude schopen sám si odstranit mezery v algoritmu, doplňovat si slovník o nová slova a automaticky pro ně získávat gramatické údaje. Předpokládá se, že počítač bude schopen automaticky sestavit „gramatiku“ z dostatečně velkého textu podle obecného programu.[15] Samočinných počítačů lze využít i k řešení jiných složitých jazykovědných úkolů, např. k modelování vývoje jazyků, jak uvádí S. M. Lamb, v jehož semináři byl už takový model na samočinném počítači vyzkoušen.[16]

Existence moderních technických prostředků nezmenšuje ovšem úlohu člověka (jazykovědce, matematika, logika, technika) při zkoumání jazyka. Naopak nutí pracovat exaktněji, soustavněji, hledat nové metody a postupy.


[3] Srov. např. D. Konečná, Flexe českého slovesa z hlediska přípravy strojového překladu, Slavica Pragensia II, Praha 1960, 85n.

[4] Totály jsou součty (označené tabelátorem jako T), které udávají výsledky třídění podle zadané sestavy. V našem případě totál udává součet štítků obsahujících stejné tvary téhož slova.

[5] J. Jelínek - J. V. Bečka - M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961.

[6] Výsledky zkoumání viz v čl. K. Korvasové - B. Palka Některé vlastnosti entropie českého slovníku, SaS 23, 1962, 58n.

[7] Je vhodné provádět zkoumání na menších souborech tvarů, aby bylo možno stanovit hranice, od nichž se již výsledky přestávají podstatně měnit. Tím se zjistí, jak velký soubor je pro takové výzkumy možno považovat za postačující.

[9] Dílčí výsledky jsou zpracovány v diplomové práci K. Kravčišinové Nespisovné prvky v některých rozhlasových relacích, fil. fak. KU, 1962.

[10] Viz D. Konečná, První pokus se strojovým překladem v Československu, NŘ 43, 1960, 109n.

[11] Algoritmus sestavil P. Sgall, pro LGP-30 jej zaprogramovali pracovnicí Centra numerické matematiky L. Koubek, P. Doktor a M. Königová.

[12] Podobně se pracuje i s ostatními skloňovanými slovními druhy.

[13] Nyní se zkoušejí i algoritmy syntézy a některé části analýzy české konjugace sestavené D. Konečnou.

[14] Srov. B. Palek, Nekotoryje lingvističeskije voprosy informacionnogo jazyka, Slavica Pragensia III (v tisku).

[15] Srov. např. P. Garvin, Automatic Linguistic Analysis — A Heuristic Problem, The First Intern. Conf. on Machine Translation of Languages and Applied Language Analysis, Teddington (Middlesex), 5th—8th Sept. 1961, Paper 1.

[16] The Digital Computer as an Aid in Linguistics, Language 37, 1961, 382n.

Slovo a slovesnost, ročník 23 (1962), číslo 3, s. 222-227

Předchozí Slavomír Utěšený: Závažný příspěvek k české historické toponomastice

Následující František Daneš: Lingvistický slovník „pražské školy“