Časopis Slovo a slovesnost
en cz

K automatickému zpracování textu při kvantitativní analýze přirozeného (českého) jazyka

Marie Těšitelová, Jan Králík, Ludmila Uhlířová

[Rozhledy]

(pdf)

К автоматической обработке текста при квантитативном анализе естественного (чешского) языка / Automatic processing of text for a quantitative analysis of natural language (Czech)

Rychlý rozvoj a stále širší využívání výpočetní techniky přinesly v posledních desetiletích významné pokroky v řadě oborů, mezi nimi v kvantitativní lingvistice. V tomto příspěvku se pokusíme na příkladu konkrétního přirozeného jazyka ukázat některé její nové směry, metody a možnosti.[1]

[146]Pro kvantitativní analýzu přirozeného jazyka a její výsledky má zásadní význam — vedle stanovení jednotky — zejména dostatečně rozsáhlý korpus dat, zvláště studují-li se jednotky vyšších jazykových rovin a jejich fungování v textu, při komunikaci. Zpracovávání rozsáhlých souborů dat a úspěšné vyřešení řady úkolů kvantitativní analýzy přirozeného jazyka je proto podmíněno jednak týmovou prací odborníků, lingvistů, matematiků a statistiků, popř. techniků, jednak využitím moderní výpočetní techniky.

Obě tyto podmínky jsou v plné míře splněny i při všestranné kvantitativní analýze současné psané a mluvené spisovné češtiny, která se od sedmdesátých let systematicky provádí v oddělení (dnes úseku) matematické lingvistiky Ústavu pro jazyk český ČSAV. Analýza se týká korpusu 540 000 slov jazyka stylu věcného, publicistického (33 %), odborného (56 %) a administrativního (11 %). U všech uvedených funkčních stylů byl brán zřetel na formu psanou (v 75 %) a mluvenou (v 25 %).

Kvantitativní analýza postihla maximální zpracovatelné množství informací týkajících se různých jazykových rovin a jejich jevů: na rovině lexikální to byla frekvence slov a jejich spojení, na rovině morfologické frekvence morfologických kategorií a jejich kombinací v rámci tvarů (slovoforem), na rovině syntaktické to byla syntaktická platnost slova ve větě, vztah slovního druhu a jeho syntaktických funkcí, poměr věty jednoduché a souvětí, frekvence různých typů souvětí apod. Na základě takto zjištěných kvantitativních dat — do jisté míry oddělených podle speciálního charakteru jednotek lexikálních a gramatických — byly postiženy a kvantifikovány i jejich vzájemné vztahy; práce nyní pokračuje na základní kvantifikaci sémantické stránky jazyka.

Získání uvedených (i řady dalších) kvantitativních charakteristik a jejich vztahů ve větě, v textu, popř. v jeho úsecích bylo nejen urychleno, ale v zásadě vůbec umožněno právě využitím moderní výpočetní techniky, tedy automatickým zpracováním dat.

Každý projekt automatického zpracování hromadných dat — tedy nejen dat lingvistických — musí nutně řešit tři etapy: (1.) vstup, (2.) vlastní zpracování a (3.) výstup. V oblasti kvantitativní analýzy přirozeného jazyka má každá z těchto etap svou specifiku.

1. V současné době se pro vstup ještě široce užívá klasických médií; jejich příprava je zatím v poměrně velké a podstatné míře podmíněna vkladem lidské práce. Jde o přípravu dat a jejich přenesení na děrné štítky, děrné pásky, ev. o jejich přímý vstup pomocí terminálu na magnetickou pásku. S oběma médiovými formami vstupu na magnetickou pásku jsou již poměrně značné zkušenosti a problematiku práce s nimi lze proto považovat v zásadě za vyřešenou, ale také již překonanou. Další typ vstupu — přímo na magnetickou pásku — má nesporně velkou budoucnost, utváří se tak rychle, že ve světovém měřítku obě klasické médiové varianty vstupu už prakticky vytlačil. Perspektivní řešení vstupu zřetelně směřuje k automatické akustické analýze a k tzv. rutinní (programové, tedy automatické) konverzi mluvených textů do psané podoby. I při značně pokročilém stadiu automatizace v této oblasti si však lze jen stěží představit dosažení tohoto cíle pro účely kvantitativní lingvistiky bez kontroly člověka.

Základní specifika lingvistického materiálu — českého materiálu zvláště — jasně mluví pro široké užívání lingvisticky předem zpracovaných (analyzovaných, připravených) dat. Trend automatizace však současně požaduje opak: zpracovávání tzv. přímých vstupů, tak jak to již některé práce naznačují. Jde zejména o využití děrných nebo magnetických pásek se záznamem textů určených pro automatickou [147]fotosazbu (např. textů novin a časopisů nebo celých knih). Takový vstup bývá buď přímo kompatibilní se vstupem počítače, nebo u něj lze kompatibilitu zajistit vhodným rutinním překladem. Výhody tohoto postupu jsou zjevné: odpadá zdlouhavá příprava pro přenos materiálu, ušetří se množství jednorázově použitelných médií (např. děrných štítků) a zpracovaný korpus může dosáhnout maximálních rozměrů.

Přechod na tuto variantu vstupu dat k jejich dalšímu automatickému zpracování — zejména pro účely kvantitativně lingvistické analýzy — však vyžaduje pokročilé a uspokojivé vyřešení jedné ze dvou základních fází drahé etapy prací: automatické kategorizace a automatického kódování. Důvod je nasnadě: přímý vstup se nemůže opírat o žádné doplňující informace, jako jsou např. kódy morfologických a syntaktických charakteristik, určení lemmatu atd.

2. Druhá etapa kvantitativní analýzy přirozeného jazyka — vlastní zpracování — úzce navazuje na vstup. Při dnes již klasickém vstupu, předem připraveném lingvisty, může se vlastní zpracování jazyka soustředit na řadu typově rozličných statistických šetření. Při perspektivním přímém vstupu z médií zapůjčených z tiskáren však bude nejprve třeba vyřešit problémy automatické gramatické, morfologické, syntaktické, popř. i sémantické analýzy a kategorizace, tedy vlastně problémy automatického kódování, a teprve na tomto základě přistupovat k automatické statistické analýze textu.

Zde je třeba zdůraznit, že nejde o dvě různé verze téže etapy vlastního zpracování, ale o dvě fáze; prvou z nich zatím supluje lidská práce, takže se přednostně rozvíjí fáze druhá. Uvedeme k tomu několik příkladů.

Druhá fáze automatického zpracování lingvistických dat opatřených kódem předpokládá odladění několika typových řad programů tak, aby při jejich aplikaci bylo možno provádět množství aktuálních programových modifikací. Ty se pak obvykle aplikují pouze jednorázově, přinášejí ovšem velmi početné výsledky.

Vedle automaticky pořízených abecedních a frekvenčních seznamů (slovníků) z celých textů se např. ukazuje jako nezbytné zajistit aplikovatelnost příslušného souboru programů pro získání takových seznamů také z kompletních výběrů jednotlivých slovních druhů, tvarů slov i z korpusu numerických kódů (získá se tak např. přehled systémového repertoáru gramatických kategorií a jejich frekvenčního zatížení apod.). U ohebných slovních druhů jsou nezbytná tzv. tvarová spektra — obvykle v abecedním uspořádání, ale je třeba sledovat i možnost jejich uspořádání frekvenčního.

Další typový okruh programů této fáze automatického zpracování textů přirozeného jazyka se vzdáleně podobá známým podrobně propracovaným tzv. automatickým informačním systémům. Jde většinou o automatické hledání kontextů k zadaným typům informací. V mimolingvistické praxi se obvykle hledají kontexty pro automatické referování podle určené množiny klíčových slov. V kvantitativní lingvistice jsou zadávané úlohy často mnohem složitější. Přitom po vyřešení a odladění jejich programu bývají — na rozdíl od zmíněných analogií v oblasti informatiky — aplikovány pouze jednorázově. Hledají se tak např. kontexty (okolí slov, věty, větné celky), v nichž má určité dané sloveso konkrétní vazbu se substantivem v zadaném pádě a žádá se roztřídění těchto kontextů podle vzdálenosti substantiva od řídícího slovesa, podle rodu příslušného substantiva, popř. podle ještě dalších kritérií. Hledají se např. věty s řetězem koordinovaných subjektů, rozvitých určitým zadaným způsobem apod.

Automatické zpracování lingvistického materiálu (textu přirozeného jazyka) pomocí výpočetní techniky přitom nejednou ukázalo, že konkrétní výsledky se v řadě případů zjevně liší od výkladů a pouček dosud uváděných v učebnicích a že pro přípravu automatické analýzy — tedy automatického kódování (budoucí první fáze vlastního zpracování) — není vždy nejvhodnější přístup lingvistický, ale naopak [148]technický a v něm především hledisko kvantitativní. V technické praxi (při řešení automatického zpracování textů) se např. ukazuje jako značný problém morfologická homonymie, kterou si v jazykové praxi běžný rodilý mluvčí ani neuvědomuje, pokud není příčinou sémantické poruchy. Podobně se např. ukazuje velký rozdíl mezi „učebnicovými“ větnými konstrukcemi a jejich skutečně frekventovanými typy atd. Příprava automatického zpracování textů přirozeného jazyka se proto ukazuje jako téměř nemyslitelná bez dlouhodobé fáze rozsáhlých kvantitativních šetření, jejichž prvotním cílem je zjištění obecné kvantitativní struktury textů přirozeného jazyka pomocí celé řady statistických a kvantitativních charakteristik. Teprve na základě skutečně mnohostranné kvantitativní analýzy lingvistického materiálu lze určit např. nejfrekventovanější typy koncovek jako základ pro automatickou morfologickou analýzu, typy větných vazeb a typy rozvití apod. pro automatickou analýzu syntaktických jevů.

Představu o náročnosti současně rozvíjené fáze zpracování lingvistických dat velmi dobře poskytuje především oblast syntaxe. Zmíníme se proto o ní podrobněji.

Důvodem uvedené náročnosti je jednak sama jazyková složitost kategorií a relací uvnitř věty jednoduché i uvnitř souvětí, jednak skutečnost, že nejde o pouhou dílčí, nýbrž o systematickou analýzu a o zhodnocení rozsáhlého jazykového materiálu tak, aby závěry měly platnost obecnou. Podrobná příprava vstupu (tedy jeho klasické řešení) umožňuje přistoupit ke kvantitativní analýze větné a souvětné stavby komplexně, tj. podrobit analýze velké množství faktorů současně a nalézt nejen škály hodnot, jichž nabývají jednotlivé syntaktické proměnné, ale stanovit i jejich hierarchii, a tím podat vysvětlení součinnosti a konkurence jazykových prostředků při užívání v komunikátech apod.

Právě při zpracovávání syntaktických jevů je podstatné, aby byl k dispozici také morfologický a lexikální kód (ať již předem připravený lingvistou, nebo získaný automaticky, v každém případě však kód co nejpodrobnější). Jedině tak lze při dalším postupu dostat množství informací o vlastnostech syntaktických struktur, o vztazích mezi syntaktickou a morfologickou stavbou vět a jejich lexikálním obsazením. Pak lze získat např. i podrobné údaje o frekvencích syntaktických funkcí slov ve větách, o typech syntaktických závislostí mezi nimi, o poměru determinace a koordinace, o struktuře a slovosledu koordinačních spojení a rozložení souvětných typů v textech, o druzích vedlejších vět, o slovosledu větném i syntagmatickém i o větosledu. Lze ověřit vztahy mezi primárními, sekundárními a terciárními syntaktickými funkcemi základních slovních druhů i jejich jemněji klasifikovaných podtříd, vztahy mezi syntaktickými slovními druhy a jejich slovoslednou distribucí apod. Lze rovněž zjišťovat rozměry (délku) jazykových jednotek ve vztahu k jejich strukturám. Na základě získaných zkušeností je pak možno rozlišit několik úrovní kvantitativních charakteristik počínaje těmi, které jsou specifické pro určitou úzkou stylovou oblast, přes ty, které jsou stabilní v široké sféře jazykového vyjadřování, zejména ve sféře věcného stylu, až po ty, které platí pro daný přirozený jazyk jako celek a patří k jeho systémovým, typologickým rysům.

Takto mnohostranně pojatá analýza nejenže vytváří široká pole pro další lingvistické výzkumy, ale zároveň poskytuje nezbytný základ pro budoucí fázi propracování zásad např. automatické syntaktické analýzy, jak už jsme se o tom zmínili. Složitost, komplikovanost a šíře dosud připravené a aplikované automatické analýzy textů přirozeného jazyka na základě podrobných vstupních dat přitom naznačuje, jak nesnadným, rozsáhlým úkolem bude výše zmíněná přípravná fáze: automatická kategorizace a automatické kódování. Po svém propracování bude samozřejmě tato fáze automatické statistické zpracování předcházet. V současném stadiu vývoje kvantitativní lingvistiky je však její budování bez podrobného propracování automatické statistické analýzy nemyslitelné.

[149]3. Třetí etapa — výstup — je z pohledu kvantitativní analýzy přirozeného jazyka nejméně komplikovaná. Také výstup (tisk) však má svou specifiku. V případě českých textů stojí na prvním místě problém diakritik. Lze jej řešit v zásadě dvěma způsoby: buď speciální úpravou strojů a tiskáren (to bylo např. řešení strojů tzv. mechanografické laboratoře ÚJČ ČSAV), nebo kompozicí písmen s diakritiky ze dvou částí — např. dvouřádkovým tiskem. Poněkud závažnější je druhá základní otázka, zda připravovat pro výstup již graficky rozvržené komentované tabulky, eventuálně grafy tak, aby je bylo možno přímou fotografickou cestou rozmnožovat nebo i publikovat, nebo zda raději připravovat rozsáhlé soubory statistických dat pro další mnohostranné zpracování mimo počítač. Dosavadní zkušenosti ukazují, že v tomto ohledu je nutno obě možnosti velmi uvážlivě kombinovat. Jde o to, aby např. požadavek získat graficky hotový výpis nebo příprava zvláštního podprogramu pro speciální graf neodčerpal svou náročností programové, ladicí a časové kapacity na úkor možnosti získat mnohem rozsáhlejší soubory výsledků, byť vyžadujících další zpracování mimo počítač.

Pro některé druhy kvantitativně lingvistických šetření připadají již dnes v úvahu další velmi perspektivní formy výstupu: je-li výsledkem automatického zpracování např. setříděný soubor dat na zvláštní magnetické pásce (jako u frekvenčního, abecedního nebo retrográdního slovníku), lze této pásky užít i jako přímého zdroje pro fotosazbu a odstranit tak z publikačního procesu několik kroků najednou (rukopis, redakční úpravu, sazbu, ev. korektury).

Automatické zpracování hromadných dat — kvantitativních charakteristik v naznačeném pojetí — má podle našeho názoru všechny podmínky pro to, aby perspektivně prohloubilo popis jazyka i v oblasti sémantiky, a to nejen na základě analýzy textů psaných, ale i mluvených (v rámci teorie komunikace). Může pak umožnit systematickou kvantifikaci textu a jeho částí (v termínech textové lingvistiky) a doplnit všestranný typologický popis jazyka, a to i při jeho fungování v komunikaci.

 

LITERATURA

 

FREKVENČNÍ SLOVNÍK SOUČASNÉ ADMINISTRATIVY. M. Těšitelová a kol. Praha 1980. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

FREKVENČNÍ SLOVNÍK SOUČASNÉ ČESKÉ PUBLICISTIKY. M. Těšitelová a kol. Praha 1980. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

FREKVENČNÍ SLOVNÍK SOUČASNÉ ODBORNÉ ČEŠTINY. M. Těšitelová a kol. Praha 1982. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

FREKVENČNÍ SLOVNÍK ČEŠTINY VĚCNÉHO STYLU. M. Těšitelová a kol. Praha 1983. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

KRÁLÍK, J.: Statistika českých grafémů s využitím moderní výpočetní techniky. SaS, 44, 1983, s. 295—304.

KVANTITATIVNÍ CHARAKTERISTIKY SOUČASNÉ ČESKÉ PUBLICISTIKY. In: Linguistica II. Ed. M. Těšitelová. Praha 1982. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

KVANTITATIVNÍ CHARAKTERISTIKY SOUČASNÉ ČESKÉ PUBLICISTIKY. TABULKY A GRAFY. In: Linguistica III. Ed. M. Těšitelová. Praha 1982. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

KVANTITATIVNÍ CHARAKTERISTIKY SOUČASNÉ ODBORNÉ ČEŠTINY (V RÁMCI VĚCNÉHO STYLU). TABULKY A PŘEHLEDY. In: Linguistica VII. Ed. M. Těšitelová. Praha 1983. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

KVANTITATIVNÍ CHARAKTERISTIKY GRAMATICKÝCH JEVŮ V SOUČASNÉ ADMINISTRATIVĚ. TABULKY. M. Těšitelová a kol. Praha 1983. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

[150]PSANÁ A MLUVENÁ ODBORNÁ ČEŠTINA Z KVANTITATIVNÍHO HLEDISKA (V RÁMCI VĚCNÉHO STYLU). In: Linguistica IV. Ed. M. Těšitelová. Praha 1983. Určeno pro interní potřebu Ústavu pro jazyk český ČSAV.

TĚŠITELOVÁ, M. a kol.: Kvantitativní charakteristiky současné češtiny. Praha (v tisku).

TĚŠITELOVÁ, M.: O morfologické homonymii v češtině. Rozpravy ČSAV, roč. 76, seš. 8, Praha 1966.

TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha 1974.

TĚŠITELOVÁ, M.: Využití statistických metod v gramatice. Praha 1980.

TĚŠITELOVÁ, M.: Quantification of meaning and the computer. In: COLING 82, Proceedings of the Ninth international conference on computational linguistics. Prague, July 5—10, 1982. Ed. J. Horecký. Amsterdam - New York - Oxford 1982, s. 377—382.

TĚŠITELOVÁ, M.: K jazyku věcného stylu z hlediska kvantitativního. SaS, 44, 1983, s. 275—283.

UHLÍŘOVÁ, L. - NEBESKÁ, I. - KRÁLÍK, J.: Computational data analysis for syntax. In: COLING 82, Proceedings of the ninth international conference on computational linguistics. Prague, July 5—10, 1982. Ed. J. Horecký. Amsterdam - New York - Oxford 1982, s. 391—396.


[1] Předneseno na semináři „Kontakt s počítačem v češtině a automatické zpracování textu včetně strojového překladu“, který byl uspořádán v listopadu 1983 péčí sekce strojové lingvistiky při Komitétu aplikované kybernetiky ČSVTS.

Slovo a slovesnost, ročník 45 (1984), číslo 2, s. 145-150

Předchozí Jan Petr: Francouzská antologie Leninových výroků o jazyce

Následující Zlata Kufnerová: K makrolingvistickému pojetí lingvistiky překladu