Karel Pala
[Chronicles]
Машинная лингвистика — мечта или действительность? / Une linguistique automatique — réalité ou rêve?
Odpověď na tuto otázku je možno najít v knize amerického autora Davida G. Hayse Introduction to Computational Linguistics, New York 1967, XVI + 231 s. Cílem knihy je sloužit jako základní text k universitním přednáškám určeným studentům bez předchozích zkušeností se strojovou lingvistikou. Autor však nikterak nepřehání, když v předmluvě vyjadřuje názor, že jeho kniha může být užitečná nejen lingvistům, ale i programátorům a specialistům v oblasti počítačů. Popisovaných postupů a technik lze využít i v literární vědě, historii, psychologii, sociologii, antropologii a etnografii. Některé jazykové operace popisované v kap. 13 mohou např. být zcela jistě aplikovány v některých psychologických výzkumech. V předmluvě vyslovuje autor názor, že brzy přijde doba, kdy lingvisté budou pokládat počítač za stejně samozřejmý jako psací stroj nebo magnetofon, kdy sociologové budou spoléhat na automatické zpracování jazykových informací aspoň tolik jako na automatickou statistickou analýzu, kdy učitelé budou považovat počítač za samozřejmý nástroj pro svou práci, kdy celý polygrafický průmysl (nejen jeho součást pracující pro potřeby vědeckého výzkumu) bude užívat počítačů ve velkém rozsahu.
Haysova kniha jasně ukazuje, jakými naprosto běžnými a standardními programy pro samočinné počítače by naše pracoviště měla být vybavena. V řadě zemí — v USA, Francii, Anglii, NSR, Ja[84]ponsku taková pracoviště existují, ale u nás, v zemi s vyspělou jazykovědou a s vynikajícími teoretiky, o takto zařízených pracovištích jen sníme, ačkoli se právem stále zdůrazňuje vědeckotechnická revoluce a potřeba ze všech sil ji podporovat.
Kniha přináší soubor obecných metod a technických postupů nejčastěji formulovaných v podobě programů nebo podprogramů pro samočinný počítač, jichž lze použít v různých oblastech jazykovědy a na různých úrovních lingvistického výzkumu.
V první části knihy (kap. 1—4) jsou probírány základní pojmy a otázky, které patří z velké části do základů programování. Tak v kap. 1 se nejprve probírají pojmy jako algoritmus, program, paměť a strojové slovo, podává se základní vysvětlení o počítačích a jejich konstrukčních prvcích, o způsobu jejich práce a o programování. Autor názorně ukazuje, jak lze sestavit jednoduchý třídicí program, přičemž střídavě klade důraz na způsob práce počítače a na postup při sestavování programu. Na rozdíl od běžných kursů programování se tu zdůrazňuje lingvistická stránka věci, to, že jde především o strojové zpracování nenumerických, tj. jazykových informací. Výklad však předpokládá, že zájemci o strojovou lingvistiku budou souběžně usilovat o základní zvládnutí ALGOLU,[1] jednoho z nejdůležitějších a nejužívanějších programovacích jazyků. Tento požadavek je třeba pokládat za zcela přirozený a oprávněný. V kap. 2 se vysvětlují otázky spojené s pamětí samočinného počítače, jak lze ukládat jazykové informace do strojové paměti a jak je možno pracovat se seznamy jazykových jednotek. Kap. 3 má spíše technický charakter — probírají se v ní typy vnějších pamětí, jako jsou děrný štítek, děrná páska a magnetická páska, a popisují základní techniky umožňující předávání informace z vnějších pamětí do vnitřní (rychlé) paměti stroje a naopak. Tyto údaje však nejsou tak okrajové, jak by se snad na první pohled mohlo zdát. Volba vnější paměti ovlivňuje podobu a často uspořádání zpracovávaných jazykových dat. Podobným problémům je věnována i kap. 4, v níž se popisují vstupní zařízení počítačů, zejména elektrický psací stroj, uvádějí se různé možné abecedy vyskytující se u počítačů a některé typy kódů.
V druhé části (kap. 5—13) se s výhodou využívá již zavedených pojmů a postupů a hlavní pozornost je soustředěna na problémy a potřeby čistě lingvistické. V kap. 5 najdeme výklad o strojových slovnících a o tom, jak s nimi lze pracovat. Autor popisuje různé způsoby hledání v slovnících, organizování složitějších slovníkových systémů a jak lze slovníky přizpůsobit rozličným jiným strojovým systémům, v nichž představují jen jednu z více složek. Tento postoj je třeba pokládat za velmi rozumný, protože slovníky se stále více objevují jako jedna součást různých lingvistických programů, což znamená, že je výhodné zpracovat slovníky vlastně jednou provždy a pak je jen zařazovat do příslušných složitějších programů.
Kap. 6—8 jsou věnovány základním typům syntaktické analýzy, mezi něž Hays počítá analýzu složkovou (nekontextovou), závislostní a též kontextovou (context-sensitive) a transformační. Důležitý je výklad i o různých technikách užívaných při sestavování algoritmů analýz, např. podrobně je vysvětlen princip zásobníkové paměti (pushdown store), některé typy tabulek apod. Autor uvádí nejen základní algoritmy pro každý typ analýzy, ale též způsoby, jak ukládat jednotlivé typy gramatik do strojové paměti, jak lze zkracovat příliš dlouhé gramatiky a užívat komplexních symbolů při volbě jednotlivých gramatických kategorií. V kap. 9 najdeme výklad o vícerovinném popisu jazykového systému, [85]který je založen na koncepci Lambově. Počítače se zde užívá při přechodech od jedné roviny popisu k druhé, postup je založen na využití převodníků (převodníkových automatů). Je tu jistá analogie s postupem popsaným u P. Sgalla.[2]
Kap. 10 je tematicky zaměřena poněkud odlišně, autor se v ní zabývá konkordancemi, jejich sestavováním i využitím. Očekávali bychom však, že výklad o konkordancích bude spíše navazovat na kap. 5 o strojových slovnících, s níž je svou problematikou těsně spojena. Výklad o konkordancích je velmi zběžný a kdybychom hledali podrobné informace, museli bychom se obrátit jinam.[3]
Kap. 11 je užitečná především proto, že obsahuje výklad o dalším možném využití počítačů zejména při výzkumu jazyků neznámých nebo málo známých. Probírá se tu např. automatická segmentace hranic mezi morfémy i většími jednotkami, některé postupy použitelné v syntaxi, např. poziční klasifikace, identifikace konstrukcí, a v sémantice, např. metody automatické klasifikace nebo program pro zkoumání vztahů mezi významem slova a jeho okolím. Kap. 12 pojednává přehledně o strojovém zpracování dokumentů, o využití počítačů v polygrafii a v knihovnictví, o automatickém zpracování obsahů dokumentů, tj. o strojovém získávání abstrakt, indexování a klasifikačních systémech.
V poslední přehledové kapitole se probírají některé vybrané otázky strojového překladu, zejména syntaktický a sémantický překlad s použitím transformačního modelu popisu jazyka. Najdeme tu i zmínku o sémémickém modelu. Na konci této kapitoly se objevuje zajímavá úvaha o jazykovědném inženýrství (linguistic engineering) a jazykovědných inženýrech. Výrazem jazykovědné inženýrství rozumí autor obor, který soustřeďuje všechny možnosti nabízené lingvistům počítači a inventáři programů. Jazykovědný inženýr musí znát (1) svůj „trh“, co se žádá a kolik, (2) lingvistickou literaturu, tj. slovníky, gramatiky, typy sémantických analýz atd., kolik lze z ní získat a co to bude stát; (3) vybavení stroje, náklady spojené s vlastním zpracováním, se vstupními a výstupními operacemi všech druhů apod. Jazykovědný inženýr se při konfrontaci s daným úkolem stává vlastně vynálezcem, který používá různých speciálních postupů, aby dokázal více, než by čistý vědec-teoretik pokládal za možné.
Haysova kniha je přímo návodem, jak by měla být vybavena moderní lingvistická pracoviště nebo lingvistické skupiny ve výpočtových centrech. Kromě dostatečně výkonného počítače — v našich podmínkách spíše středního než velkého — by tu měla být k dispozici knihovna standardních programů a podprogramů, které lze rozdělit zhruba do čtyř skupin: (1) Třídicí programy umožňující nejen třídění podle více zadaných kritérií, ale i statistické vyhodnocení dat spolu se zjištěním relevantních vztahů; programy tohoto druhu jsou nepochybně víceúčelové a mohou sloužit lingvistům stejně jako sociologům, psychologům a etnografům. (2) Programy pro různé typy syntaktických analýz, pro syntézu vět, jež mohou sloužit k ověřování popisu různých úrovní jazykového systému, a vůbec programy generativního nebo rekognoskativního charakteru. (3) Soubor speciálních a experimentálních programů použitelných v různých oblastech jazykovědného výzkumu, např. v morfologii, syntaxi, sémantice apod. Z programů autorem uváděných bychom sem jistě mohli zařadit segmentační programy pro neznámé jazyky, programy pro zkoumání sémantických vztahů v textu, experimentální programy se speciálními vlastnostmi, např. některé heuristické nebo automaticky se zdokonalující programy [86]i experimentální programy založené na spolupráci člověk-stroj. (4) Poslední skupinu tvoří programy pro automatické zpracování dokumentů a pro potřeby knihoven, dále publikační systémy určené polygrafickému průmyslu. V našich podmínkách by však jistě bylo účelné, kdyby se těmito aplikacemi zabývala specializovaná pracoviště nebo lépe jedna centrální instituce, která by při dobré organizaci snadno uspokojila i celostátní potřeby. Zdá se, že totéž by bylo možno říci o vypracování systému strojového překladu, který by bylo nejužitečnější připravovat na jednom centrálním a dobře vybaveném pracovišti, popř. i na několika menších, avšak promyšleně koordinovaných pracovištích.
Cena Haysovy knihy je právě v její soubornosti a přehlednosti a v tom, že poskytuje v daném okamžiku úplné informace o nynějším stavu a možnostech strojové lingvistiky.
[1] E. W. Dijkstra, A primer of ALGOL-60 programming, Academic Press 1960, P. Naur (ed.); Report on the algorithmic language ALGOL-60, Commun. Assoc. Computing Machinery, vol. 3, 1960, 299—314, z českých pramenů J. Raichl, Programování v ALGOLU, Praha 1966.
[2] P. Sgall, Generativní popis jazyka a česká deklinace, Praha 1967. Právě vyšla anglická verze: P. Sgall a kol., A Functional Approach to Syntax in Generative Description of Language, New York 1969; srov. rec. L. Uhlířové v SaS 31, 1970, 180—181.
[3] Např. S. M. Lamb - L. Gould, Concordances from Computers, Mechanolinguistics Project, University of California, Berkeley 1964; viz též J. Štindlová, Záznam a zpracování textu pomocí strojů, SaS 31, 1970, 64—70.
Slovo a slovesnost, volume 32 (1971), number 1, pp. 83-86
Previous Jiří Kraus: Užitečná chrestomatie z kvantitativní stylistiky
Next Josef Štěpán: Elektronická syntaktická analýza současné němčiny
© 2011 – HTML 4.01 – CSS 2.1