Časopis Slovo a slovesnost
en cz

Computation in Linguistics

Ludmila Uhlířová

[Kronika]

(pdf)

Computation in Linguistics

Sborník takto nazvaný (Indiana Univ. Press, Bloomington-London 1966, 340 s.) obsahuje referáty ze semináře o jazykovém zpracování dat, konaném na universitě v Indianě v r. 1964. Je výstižně charakterizován již svým podtitulem: sbírka úloh. Vydavatelé, P. Garvin spolu s B. Spolským, v něm představili dvanáct úloh s různou lingvistickou tematikou, k jejichž řešení bylo použito počítačů. Sborník je zaměřen převážně na techniku strojové lingvistiky, tj. na otázky formulace úlohy, porovnání podílu práce lidské (myšlenkové i mechanické) a strojové, přípravu lingvistického materiálu (preeditování textů), způsoby zakódování informací, návrhy algoritmů (s hojnými ukázkami blokových schémat) a též ekonomické zřetele. Tyto výklady doprovázejí stručná nebo obsáhlejší teoretická pojednání lingvistická. Pracuje se s jazykovým materiálem anglickým (5 příspěvků), německým (1), čínským (1), hebrejským (1) a s materiálem jazyků pro nás velmi odlehlých, jako navaho (amer. indiánský jazyk), telugu (indický jazyk) a fidži (z Oceánie).

Jak vykládá v úvodu P. Garvin, jsou úlohy ve sborníku rozděleny do dvou skupin podle toho, v jakém stupni se počítač podílí na jejich řešení. Do první skupiny, v níž jde spíše o vyhledávání informací než o automatickou analýzu, jsou zařazeny celkem tři úlohy. Počítače a antropologická lingvistika (O. Werner), Syntaktická konkordance pro střední horní němčinu (W. C. Crossgrove) a Program pro automatické vyhledávání v lingvistickém atlasu Kanady (R. W. Shuy). Jak se využívá velké paměťové kapacity počítače a možnosti [98]rychlé orientace po velkém množství dat, je nejnázorněji patrno z příspěvku Crossgrovova: Do počítače se vloží středohornoněmecké texty předem upravené tak, že každé slovo je opatřeno kódovanou gramatickou informací o gramatické kategorii, závislostním vztahu a pozici ve větě (12 údajů pro každé slovo). Slova se vkládají do počítače v tom pořadí, v jakém po sobě následují v textu. Pomocí poměrně jednoduchých programů se pak získávají statistické informace o textu (jsou připojeny ukázky blokových schémat pro zjišťování statistiky pozic určitého slovesa a výskytu neosobních vět).

V druhé skupině, která je jádrem sborníku (patří sem devět úloh), jde o automatickou analýzu. Pojmu automatická lingvistická analýza je třeba rozumět takto: Program pro počítač, který by sám automaticky analyzoval neznámý jazyk, zůstává podle všeobecného názoru hudbou vzdálené budoucnosti. Počítač je zařízení s mechanickou logikou, umožňující lingvistům verifikovat s přesností dříve nedosažitelnou přesné důsledky jejich předpokladů. Úlohy v této skupině se týkají oblasti metajazykové, popisu jazykového systému a lingvistiky aplikované, do níž je zařazen spolu s programovaným vyučováním též strojový překlad a analýza obsahu.

Jediný článek ve sborníku, který se netýká analýzy přirozeného jazyka, je článek R. Banerjiho O jednom způsobu syntaktické analýzy. Zkoumá se v něm efektivnost syntaktického algoritmu se zásobníkovou pamětí, navrženého A. Glenniem v jiné publikaci,[1] ve vztahu k axiomaticky definované frázové nekontextové gramatice. Počítač stanoví, zda řetězy symbolů na vstupu náležejí do jazyka definovaného gramatikou, a přiřadí jim struktury podle syntaktického algoritmu analýzy.

V příspěvku A. J. Schütze a J. Wenkera Program pro stanovení lexikální podobnosti mezi dialekty se zkoumá jazyk fidži, který se vyznačuje velkým množstvím dialektů. Podle upraveného Swadeshova lexikálního seznamu se z každého dialektu vybere 200 slov. Dvojice seznamů se porovnávají na počítači tak, že se vytřídí slova, která jsou v uvažované dvojici dialektů fonologicky identická, dále slova s pravidelnými fonologickými korespondencemi, s jistým stupněm podobnosti a slova nepodobná (jednotkou porovnávání je slabika). Na základě těchto údajů počítač číselně stanoví stupeň lexikální příbuznosti pro každou dvojici dialektů.

Článek L. Venezkého Automatická konverze grafémů na fonémy je pokusem automatizovat fonologický přepis 20 000 nejfrekventovanějších anglických slov (na materiále frekvenčního slovníku E. L. Thorndika a I. Lorge The teacher’s word book of 30 000 words, New York 1941). Rozbor ukázal, že efektivní algoritmus, který by zachycoval korespondence grafému-fonému, nelze pro angličtinu sestavit. Jediným možným řešením je uspořádat slova v základních tvarech do seznamu, ke každému uvést fonologický přepis a stanovit pravidla pouze pro fonologické korespondence na švu mezi základem a afixem. Fonologický přepis se provádí tak, že se slovo nejprve segmentuje na základní tvar a afix, v seznamu základních tvarů se vyhledá fonologický přepis základního tvaru a pak podle tabelovaných pravidel se určí výslovnost na švu.

Jak bylo užito počítače k verifikaci hypotézy o morfologické struktuře slovesných tvarů v jazyce telugu, vykládá článek D. N. Matsona Automatická morfémová analýza slovesných tvarů v telugu. Příspěvek M. L. Yonesové Automatická verifikace frázového popisu stručně informuje o ověřování pokusného třídění prepozitivních přívlastků v angličtině.

První ze dvou obsáhlých článků věnovaných strojovému překladu (F. C. Peng, Program pro syntaktickou analýzu jmenných částí věty ve spisovné čínštině) obsahuje velmi podrobnou lingvistickou analýzu slovních druhů v čínštině a problematiky jejich syntaktického spojování. — Druhý, Participium v moderní hebrejštině — automatická analýza homonymie (od P. O. Samuelsdorffa), je zajímavý metodologicky: sestavuje se nejprve algo[99]ritmus analýzy pro uměle utvořené syntakticky správné věty, v nichž všechna slova jsou participia, a tento algoritmus po další úpravě analyzuje věty s participii skutečně se vyskytující ve stylu novin.

Za jeden z nejzávažnějších příspěvků ve sborníku z hlediska teoretického lze pokládat článek o analýze obsahu (S. N. Jacobson, Program pro spojování příbuzných vět v anglickém textu). Vychází se z hypotézy, že text je organizován tak, že jeho obsahová analýza nevyžaduje znalost významu jednotlivých slov ve větě. To znamená, že alespoň část významu věty závisí na celkové organizaci textu. O organizaci textu informují čtenáře vodítka, tj. některé rozvíjející členy větné (dají se škrtnout, aniž se poruší syntaktická úplnost věty) a slova povahy odkazovací. Věty textu se dělí na věty-soudy, na kontextu nezávislé, a věty obsahující vodítka. Výskyt vodítka znamená, že můžeme předpokládat výskyt jiné, obsahově související věty. Vodítka jsou seřazena v slovníku vodítek, každé vodítko je opatřeno predikcí o výskytu příbuzné věty (kde ji v textu hledat, popř. jaká je její syntaktická podoba). Slovník vodítek a predikce jsou však sestaveny pouze na základě pokusně zpracovaných textů; pro lepší fungování predikcí je připojen seznam lexikálních ekvivalentů slov v pokusných textech.

Sborník vhodně uzavírá článek B. Spolského Sdělování mezi člověkem a strojem při programovém vyučování. Autor sestavil algoritmus, podle něhož počítač identifikuje všechny chyby, které neanglický student angličtiny učiní při tvoření slovesných časů, dále určí druh chyby a zvolí příslušnou další větev v programu.


[1] A. E. Glennie, On the syntax machine and the construction of an universal compiler, Tech. Rep. No. 2, Computational Center, Carnegie Institute of Technology, Pittsburgh 1960.

Slovo a slovesnost, ročník 29 (1968), číslo 1, s. 97-99

Předchozí Helena Novozámská: Jedna z prvních deskriptivistických syntaxí angličtiny

Následující Jan Průcha: Psycholingvistický výzkum řeči