Časopis Slovo a slovesnost
en cz

Nová příručka o strojové lingvistice

Jiří Černý

[Kronika]

(pdf)

Новое пособие о машинной лингвистике / A new manual of computational linguistics

V nakladatelství Panorama vyšla nedávno příručka věnovaná základním problémům strojové lingvistiky a zejména současnému stavu této disciplíny u nás. Autoři Petr Sgall, Eva Hajičová a Petr Piťha jí dali název Učíme stroje česky (Praha 1982, 295 s.). Podobně jako o osmnáct let starší práce P. Sgalla a kolektivu Cesty moderní jazykovědy (1964) je určena širší veřejnosti zajímající se o moderní lingvistiku a ve srovnání s ní ukazuje zejména na značný pokrok, kterého bylo u nás i ve světě dosaženo v oblasti strojové lingvistiky.

První kapitola (Lidská řeč a jazyk počítače, s. 9—77) pojednává o rozdílech mezi jazyky přirozenými a umělými a o základních otázkách strojové lingvistiky. Výstižně jsou charakterizovány základní vlastnosti jazyků přirozených (tj. univerzálnost, rozmanitost a nepravidelnost). Na příkladě češtiny vysvětlují autoři otázky spojené s vývojem jazyka a s jeho místním i funkčním rozrůzněním (nářečí a jejich nivelizace, interdialekty, obecná a spisovná čeština, stylové variety apod.). Vedle sociologického hlediska věnují značnou pozornost otázkám sémantickým (synonymie a homonymie, význam věty apod.). U jazyků umělých najdeme krátkou informaci o jazycích typu esperanta, avšak v souladu s potřebami strojové lingvistiky je pozornost soustředěna především na formální jazyky logiky (zejména na výrokový a predikátový počet, ale i na systémy intenzionální logiky, související s tzv. sémantikou možných světů). Závěr této části první kapitoly je věnován jazykům programovacím, jako je např. ALGOL, a to zejména tzv. jazyku Q, který je pro lingvistiku zvláště výhodný, neboť postihuje tzv. vrcholové stromy, tj. grafy, jimiž je možno zobrazit také větnou strukturu. V souvislosti s tím je naznačen současný stav i perspektivy nejbližšího vývoje komunikace mezi člověkem a počítačem. Celá první část první kapitoly je přístupná i těm lingvistům, kteří se o strojovou lingvistiku vůbec nezajímají.

Další část první kapitoly přináší základní informace o strojové lingvistice, o jejím vzniku a vývoji, současném stavu i perspektivách. Na jednoduchých příkladech jsou názorně předvedeny principy generativní procedury a transformačního popisu i jednotlivé typy gramatik („regulární“, kontextová, nekontextová), a to tak, jak odpovídají různým druhům abstraktních automatů. Vedle procedur generativních jsou stručně objasněny i gramatiky rekognoskativní (zejména kategoriální) a analytické.

Druhá kapitola (Stroj a česká mluvnice, s. 78—125) přináší — na rozdíl od úvodní teoretické kapitoly — už příklady konkrétních českých vět, které byly generovány počítačem na základě modelu české gramatiky vytvořeného pro potřeby strojové lingvistiky na matematicko-fyzikální fakultě Karlovy univerzity v Praze kolektivem, do něhož patří i autoři recenzované knihy. Chyby, jichž se při tom počítač „dopouští“, slouží autorům k ilustraci základních obtíží (zpracování významové složky, kombinovatelnost slov, aktuální členění, aktanty, intezionální interpretace, reference, indexické prvky typu , ty, teď, tady — tj. tzv. šiftry, ilokuční platnost vět, perlokuce apod.). Chyby vzniklé při vytváření modelu sloužily a slouží k postupnému upravování modelu české gramatiky. Přesvědčivě zní tvrzení autorů o tom, že počítač, který nepřipouští žádnou vágnost či nepřesnost formulací, přispívá tím k preciznímu explicitnímu popisu i těch gramatických jevů, které nebyly dobře (nebo vůbec) popsány ani v rámci jazykovědy tradiční. Závěr kapitoly patří porovnání automatické syntézy a analýzy přirozených jazyků.

Třetí kapitola (Automatická bibliografie, s. 126—157) pojednává o automatizovaných bibliografických a rešeršních systémech a o automatickém zpracovávání rejstříků. Podrobně je popsán zvláště systém MOZAIKA (autor Z. Kirschner), který důmyslně využívá tvaro[350]slovného bohatství češtiny a slouží k vyhledávání odborných termínů na základě tří nebo čtyř posledních písmen jednotlivých slov.

Čtvrtá kapitola (Automatické zodpovídání otázek a modely porozumění textu, s. 158 až 233) přináší podrobnou a velmi zdařilou charakteristiku takových automatických systémů, které mají poskytovat informace různého stupně složitosti. Jsou to tyto systémy: a) zodpovídání otázek na základě báze dat, tj. poměrně jednoduchý systém, v němž je do počítače zaveden soupis jistých objektů a určitý počet jejich atributů, což počítači umožňuje odpovídat na omezený počet příslušných dotazů; b) důmyslné systémy, které umožňují např. vést s počítačem „dialog“, přičemž určité procento pokusných osob je přesvědčeno, že jejich partnerem je člověk; podobný systém může např. u klientů přesně zjišťovat jejich přání a zajišťovat jim místenku v požadovaném dopravním prostředku; c) mimořádně složitý systém tzv. automatické encyklopedie, který by poskytoval jakékoli informace faktografického charakteru. Tomuto poslednímu systému věnují autoři zvláštní pozornost. Ukazují, že jeho nutným předpokladem je to, aby byl počítač v budoucnu schopen číst publikace v té podobě, v jaké vycházejí, a samozřejmě veškeré přečtené informace uchovat v paměti a později je na požádání nejen reprodukovat, nýbrž kombinovat je a vyvozovat z nich správné závěry. Podrobně je popsán systém TIBAQ, vypracovaný v Praze za vedení E. Hajičové, který je zárodkem takové automatické encyklopedie, neboť už dnes nejen poskytuje uložené informace, ale vyvozuje z nich i z jejich kombinací důsledky; zatím ovšem pracuje pouze s odbornými texty omezeného rozsahu. V závěru kapitoly jsou stručně vysvětleny potíže spojené s automatickou syntézou a zvláště analýzou mluvené řeči. Autoři ukazují, jak důležitý pokrok by znamenala možnost plynulé komunikace mezi člověkem a počítačem v přirozeném mluveném jazyce a proč tohoto cíle ještě zdaleka nebylo dosaženo.

Konečně v páté kapitole (Strojový překlad, s. 234—274) je podán přehled vývoje strojového překladu ve světě i u nás, a to od prvních pokusů až po dnešní stav, kdy se po obdobích nadšení a zklamání v několika případech už daří pořizovat poměrně dobré strojové překlady, i když zatím jen u odborných textů a většinou v jednom vybraném oboru. Podrobněji jsou popsány současné úspěšné a perspektivní systémy strojového překladu — kanadský, francouzský, sovětský a pražský.

Kniha Učíme stroje česky podává přehledné informace o všech základních jevech, které se do oboru strojové lingvistiky zahrnují. Přesvědčivě ukazuje, jaké jsou klady strojové a matematické lingvistiky a v čem tyto disciplíny obohacují naše teoretické vědomosti o přirozených jazycích. Je psána názorně a srozumitelně, takže je přístupná i těm lingvistům a vůbec všem zájemcům o moderní jazykovědu, kteří nemají speciální přípravu matematickou ani logickou.

Slovo a slovesnost, ročník 44 (1983), číslo 4, s. 349-350

Předchozí Kateřina Pösingerová: Sovětský sborník o otázkách sociolingvistiky

Následující Alena Macurová: Kolokvium o stylistice a její aplikaci v praxi