Časopis Slovo a slovesnost
en cz

Struktura jazyka a její matematické aspekty

Pavel Novák

[Discussion]

(pdf)

Структура языка и ее математические аспекты / La structure de la langue et ses aspects mathématiques

Pod tímto názvem vyšel 12. svazek Akt symposií z aplikované matematiky vydávaných Americkou matematickou společností.[1] Symposium, které se konalo 14. a 15. dubna 1960 v New [140]Yorku, bylo pořádáno společně Americkou matematickou společností, Asociací pro symbolickou logiku a Lingvistickou společností Ameriky. Účastníky byli lingvisté, matematikové, logikové, filosofové a psychologové, téměř výhradně badatelé severoameričtí.

Svazek obsahuje úvod vydavatele R. Jakobsona, dvacet referátů, úvodní poznámky vedoucích diskusí (byli jimi M. Black, Y. Whatmough a R. M. Fano), úryvky z diskusí a věcný rejstřík.

Byly předneseny tyto referáty: W. V. Quine, Logika jako zdroj vhledu do syntaxe (syntactical insights); N. Chomsky, O pojmu „gramatické pravidlo“; H. Putnam, Některé otázky teorie gramatiky; H. Hiż, Sougramatičnost (congrammaticalicity), soubory (batteries) transformací a gramatické kategorie; N. Goodman, Grafy pro lingvistiku; H. B. Curry, Některé logické aspekty gramatické struktury; Yuen Ren Chao, Grafické a fonetické aspekty lingvistických a matematických symbolů; M. Eden, O formalizaci rukopisu; M. Halle, O úloze jednoduchosti v lingvistickém popisu; R. Abernathy, Problém lingvistické ekvivalence; H. G. Herzberger, The Joints of English; A. G. Oettinger, Automatická syntaktická analýza a zásobník (pushdown store); V. H. Yngve, Hloubková (depth) hypotéza; G. E. Peterson a F. Harary, Základy fonémické teorie; J. Lambek, O kalkulu syntaktických typů; H. A. Gleason, Genetická příbuznost jazyků; B. Mandelbrot, O teorii frekvence slov a příbuzných markovských modelech promluvy (discourse); Ch. F. Hockett, Gramatika pro posluchače; R. Wells, Míra subjektivní informace; R. Jakobson, Lingvistika a teorie komunikace.

Již názvy samy ukazují na široký záběr problematiky: synchronie i diachronie, kvalita i kvantita, jazyk i diskurs, gramatika i fonologie a grafématika. Je příznačné pro nedávno minulou dobu, že se polovina příspěvků týkala především otázek syntaktických. Z devíti okruhů matematické lingvistiky uvedených o rok později V. V. Ivanovem[2] nebyly tu zastoupeny jen práce zaměření Kulaginové, Revzina a Marcuse. Některé referáty byly spíše obecnější, některé velmi speciální (uplatňovala se matematická logika, teorie množin, teorie grafů, teorie automatů, teorie informace aj.), avšak i příspěvky bez formálního aparátu byly neseny matematickým „duchem“ — solidní definiční výstavbou, přesnou formulací předpokladů apod.

Obecný metodologický ráz měly příspěvky Putnamův a Curryho. Putnam zdůraznil, že jakýkoli lingvistický popis svůj objekt v nějakém stupni idealizuje, a že je tedy výhodné pracovat v teorii gramatiky vedle pojmu gramatické (gramaticky správné) věty s pojmem věty odchylné (deviant).[2a] (Obdobná problematika se v glosematice řeší zčásti pojmem katalýza.) Hranice mezi gramatikou a sémantikou není podle P. otázka vlastně teoretická, nýbrž jen otázka vhodnosti. Pseudoproblém, zda je možno sestrojit gramatiku nezávisle na významu, je příliš spjat s omylem, že „úkolem lingvistické teorie je teoretika zcela eliminovat, ne právě opatřit mu užitečné nástroje (testy, procedury atd.)“ (s. 35). Dále se P. zabývá způsobem definování pojmů foném a morfém. Foném definuje pomocí pojmu strukturní identity, který považuje pro syntax za základní (dva sledy fonů jsou strukturně identické, jestliže je mluvčí jazyka považuje za stejný výraz). (Za základní pojmy sémantiky považuje P. pojmy pravdivost a synonymie.) Jestliže se dva strukturně neidentické sledy fonů liší pouze tím, že sled A obsahuje fon P na místě, na němž sled A' obsahuje fon P', řekneme, že P a P' jsou ověřitelně neekvivalentní. V praxi se podle Putmana obyčejně postupuje tak, že se za fonémy považují třídy fonů určené „největším“ vztahem, který je vztahem ekvivalence a jehož doplněk obsahuje vztah ověřitelné neekvivalence. Žádnou z dosavadních definic morfému, tohoto „přirozeného stavebního prvku“ jazyka, nepovažuje P. za plně vyhovující. V závěru uvádí některé argumenty pro tezi, že přirozené jazyky (chápané jako množiny gramatických vět) jsou rekurzívními, nejen rekurzívně [141]spočetnými množinami,[3] a proto považuje Chomského vymezení transformačních gramatik, o nichž je známo, že vymezují jen množiny rekurzívně spočetné, za příliš široké.

Curry zařadil pojem gramatiky do širšího pojmového rámce. Jak známo, součástmi semiotiky jsou syntax, sémantika a pragmatika. V souladu s Carnapovým pojetím rozlišuje Curry v sémantice tři části: gramatiku (studium tvoření vět), aleuthetiku (studium pravdivosti vět), onomatiku (problematika tzv. designačních pravidel). Je ovšem třeba připomenout, že gramatika v tomto pojetí je zároveň součástí syntaxe[3a] a že přísně vzato Curryho schéma postihuje jen fragment přirozeného jazyka, totiž věty oznamovací (problematiku vět tázacích atd. nelze analyzovat bez pojmů patřících do pragmatiky). K základním úkolům obecné gramatiky patří klasifikace frází (kombinací symbolů tvořících gramatickou jednotku). C. rozeznává tři základní druhy frází, jména, věty a funktory (fráze vytvářející z jedné nebo několika frází frázi jinou) a podává bohaté příklady na různé kategorie funktorů z přirozených i umělých jazyků. Uvažujeme-li jen jednoargumentové funktory, můžeme zavést notaci FXY pro funktor, který z fráze kategorie X vytváří frázi kategorie Y, např. FNS je symbol pro intranzitivní sloveso.[4] K této systematizaci frází došel C. nezávisle na Ajdukiewiczovi[5] na základě své teorie funkcionality, součásti tzv. kombinatorické logiky, jejímž je hlavním představitelem.[6] Svým pojetím formálních systémů je C. veden k jedné velmi důležité výtce Chomskému. C. totiž proti běžnému, „syntaktickému“ pojetí, které za objekty metateorie považuje výrazy tzv. objektového jazyka, nechává povahu objektů, kterými se metateorie zabývá, zcela nespecifikovanou.[7] Těmto nespecifikovaným objektům lze ovšem přiřadit výrazy (řetězy symbolů) a dospět tak k jisté reprezentaci systému. Analogicky navrhuje C. lišit v gramatice dvě roviny, tzv. tektogramatiku — studium gramatické struktury samé — a fenogramatiku — studium způsobů její reprezentace výrazy. Jako příklad uvádí lat. větu Puer puellam amat, která bez ohledu na možné změny slovosledu bude mít stále stejnou strukturu. K stejné námitce došel na základě názoru o dvojstupňovitosti vědy (stupeň konstruktů a stupeň observační) S. K. Šaumjan[8] a u nás z čistě lingvistických pozorování F. Daneš.[9]

Chomsky předeslal své velmi výstižné charakterizaci frázové a transformační gramatiky důležité obecné poznámky o úkolech teorie gramatiky. „Tradičním cílem gramatiky je vymezit třídu správně tvořených vět a přiřadit každé to, co můžeme nazvat ‚strukturním popisem‘, totiž vystižení jednotek, z nichž se věta skládá, způsobu jejich kombinace, formálních vztahů věty k jiným větám atd. Chceme-li postoupit nějak významněji za tradiční gramatiku, je podstatné, abychom uvedli přesnou formulaci pojmu strukturní popis věty a přesně vystihli způsob, jakým je strukturní popis pomocí ‚gramatických pravidel‘ větám přiřazován“ (s. 6). Dále má teorie gramatiky vymezit množinu možných gramatik; množinu možných vět (např. pomocí univerzální fonetické abecedy); množinu možných strukturních popisů; funkci f takovou, že f (i, j) je množina strukturních popisů věty si přiřazované jí gramatikou Gj; funkci m (i), která vyhodnocuje gramatiku Gi (tedy míru jednoduchosti gramatiky); funkci g takovou, že g (i, n) je popis konečného [142]automatu, který větám na vstupu přiřadí strukturní popisy podle gramatiky Gi (n je parametr kapacity automatu) atd.

Zaměření obecného referátu R. Jakobsona je patrné z názvu referátu.

Jádrem příspěvku Hiżova je definice termínů obsažených v jeho názvu a formulace dvou zajímavých hypotéz. Sougramatičnost je formální analogon Harrisovy transformace (chápané jako vztah vět),[10] baterie transformací je pak jistým jeho zobecněním. Studie je zaměřena induktivně, totiž na schéma badatelova postupu.

Lambek dále propracovává svůj tzv. kalkul syntaktických typů a pokračuje ve zkoumání jeho aplikovatelnosti na analýzu anglické syntaxe.[11] Tento kalkul (L. nyní rozeznává dva jeho druhy, asociativní a neasociativní) je deduktivní systém (se schématy axiómů a inferenčními pravidly), s jehož pomocí lze frázovou rekognoskativní, tj. „obráceně čtenou“ frázovou gramatiku přeměnit na gramatiku kategoriální tím, že eliminujeme gramatická pravidla (typu XY V) a vhodně modifikujeme pravidla lexikální (tj. typu John X). Např. k frázové analýze věty John must work potřebujeme lexikální pravidla John n, must m, work i, a gramatická mi v a nv s. Avšak podle inferenčního pravidla (3)  změníme první gramatické pravidlo na m v/i a druhé pravidlo podle inferenčního pravidla (3')  na v n\s, což dosadíme do pravidla m v/i a dostaneme m → (n\s)/i. Zrevidujeme nyní lexikální pravidlo pro must na must → (n\s)/i a analýzu uvedené věty můžeme provést již jen pomocí zcela obecných pravidel redukce x(x\y) → y a (x/y)y x, nezávislých na konkrétním jazyce.

Herzberger obecně charakterizuje tzv. string analysis (řetězovou analýzu), což je jedno ze schémat pro popis syntaxe, v jehož termínech se provádí automatická analýza anglických vět na Pennsylvánské universitě.[12]

Hockett se zabývá popisem syntaxe (přirozeného jazyka) z hlediska posluchače. Předvádí jisté schéma pro popis syntaxe, tzv. konstrukční gramatiku, na hledisku posluchače ovšem zcela nezávislé. V konstrukční gramatice se syntaktický celek popisuje v termínech formálních tříd slovních tvarů, hierarchie bezprostředních složek a konstrukčních typů (atributivní, predikační, objektový atd.). Byl-li by H. ochoten vyznačit v každé konstrukci člen řídící a člen závislý, byla by konstrukční gramatika variantou závislostní gramatiky kombinovanou s jistým prvkem gramatiky frázové (hierarchií bezprostředních složek).[13] H. se také pokusil stanovit vztah konstrukční gramatiky ke gramatice frázové a transformační.

Technicky náročný referát Oettingerův je dokladem toho, jak studium algoritmů pro překlad mezi umělými jednoduchými jazyky může pomoci při konstrukci překladových algoritmů pro přirozené jazyky, a naopak. V daném případě jde o metodu tzv. prediktivní analýzy.[14]

Quine ukazuje na příkladě anglických složených spojek a zájmen, jak srovnání vyhraněných a specializovaných konstrukcí umělých jazyků matematiky a logiky s příslušnými jevy přirozeného jazyka může vést k hlubšímu pochopení funkce jazyků přirozených.[15]

Yngve referoval o své práci A model and an hypothesis for language structure,[16] kterou [143]F. Daneš a K. Horálek nedávno zařadili „k nejzajímavějším syntaktickým příspěvkům poslední doby“.[17] Y. navrhl model produkce mluvených anglických vět a vyslovil hypotézu o souvislostech některých rysů jazyka a známého omezení bezprostřední lidské paměti (můžeme najednou postřehnout a zapamatovat si jen asi sedm navzájem nesouvisejících objektů). Zařízení se skládá ze čtyř částí; (1) stálá paměť, (2) výstup, (3) operační jednotka a (4) operační paměť. Spojení je mezi 1 a 4, 1 a 3, 4 a 3, 3 a 1, 3 a 2. V stálé paměti je uložena speciální frázová nekontextová gramatika, s dvěma typy gramatických pravidel (A B + C pro složky spojité, A B + … + C pro nespojité) a pravidly lexikálními (A man). Na výstupu se objevují koncové symboly (slovní tvary), v operační jednotce může být nanejvýš jeden symbol, v operační paměti nanejvýš sedm symbolů. Na začátku je v operační jednotce symbol S (věta). Je-li v ní jistý nekoncový symbol (tedy např. právě S), vyhledá se v stálé paměti pravidlo začínající tímto symbolem a první symbol po šipce se zaznamená do operační jednotky, další symbol se zaznamená na levý okraj operační paměti (tzn. jsou-li v operační paměti již nějaké symboly, musí být odsunuty doprava). Je-li do operační jednotky přenesen koncový symbol, zaznamená se na výstupu a do jednotky se zaznamená nejlevější symbol z operační paměti. — Při grafickém znázornění struktury generované věty očíslujeme členy téže větve grafu od nuly ve směru zprava doleva a sečteme čísla od každého koncového symbolu k vrcholu příslušné větve. Největší součet nazveme hloubkou věty (na 1. obr.: 2). Jí je dán nutný objem operační paměti pro tuto větu. Hloubka je rozhodující jen u tzv. regresívních větví struktury (obr. 1), kdežto tzv. progresívní větve mohou být jakkoli dlouhé (obr. 2). — Zmíněné číslo (7 ± 2) bere Yngve hypoteticky za maximální možnou hloubku reálné anglické věty, případně věty jiného přirozeného jazyka, a tedy za objem operační paměti dostatečný pro správné fungování modelu. Předpokládá dále, že v gramatikách jazyků existují prostředky pro redukci hloubky regresívních struktur takové, aby hloubka nepřesahovala předpokládané číslo. Z těchto prostředků jmenuje např. změnu v pořadí členů struktury tak, aby regresívní struktura stála nejvíce vpravo, změnu regresívní struktury na progresívní, převahu binárních konstrukcí aj.

 

                     Obr. 1                                                  Obr. 2

 

I když jsou s Yngveho hypotézou spojeny některé nejasnosti (na některé poukázali Chomsky na s. 13 a Lees na s. 266), lze v jeho práci vidět velmi dobrý příklad na exaktní spolupráci dvou vyspělých oblastí lingvistiky a psychologie.

V Edenově příspěvku se popisuje generování slov psaných anglickým psacím písmem, a to ze čtyř základních prvků pomocí pravidel pro operace s těmito prvky.[18]Hallemu jde o problém, jak řazení pravidel při popisu jazyka nebo jeho vývoje umožňuje formulaci pravidel zjednodušit.

Abernathy rozeznává dvě stanoviska k otázce, jak klasifikovat výskyty (occurence, token) do typů (type), evidenční a inferenční. Podle prvního je předpis pro identifikaci prostě dán, podle druhého je možno k identifikaci dospět jen ze znalosti celku, jehož je výskyt součástí. A. definuje postupně pět typů zaměnitelnosti z hlediska identity vyššího celku.[19] Výskyt x je ve vztahu C k výskytu y, stručně Cxy, právě tehdy, je-li možno zaměnit x za y, aniž se vyšší celek změní. Dxy právě tehdy, když zároveň Cxy a Cyx. Exy právě tehdy, když pro každé z Cxz právě tehdy, když Cyz. E*xy právě tehdy, když pro každé z Czx právě tehdy, když Czy. Vztahy E0 a E1 jsou pak definovány jako průnik, resp. sjednocení E a E*.

Fonémickou teorií se u Petersona a Harryho rozumí vymezení organizace fyziologických časových funkcí řeči do tříd fonů a prozódií, tříd tříd fonů atd., tedy teorie analýzy řeči. — [144]Gleasonovým cílem je formulovat zásady historickosrovnávací metody natolik přesně, aby bylo možno sestavit mechanické procedury pro provádění některých etap lingvistické práce v této oblasti, např. pro zjišťování hláskových korespondencí, stupně příbuznosti apod. V Gleasonově pojetí je glottochronologie jen jednou součástí lexikální statistiky, která zahrnuje celou příbuznou problematiku.

Referát Mandelbrotův je zatím nejúplnějším přehledem současného stavu bádání v klasické zipfovské problematice, k jejímuž rozvoji M. sám podstatně přispěl. Hlavním znakem jeho přístupu je, že se o procesu vytváření textu explicitně formulují jisté předpoklady, z nichž lze příslušné empiricky získané vztahy matematicky odvodit a tím je „vysvětlit“. V tomto příspěvku přibyl i zřetel diachronický.

Významný příspěvek Wellsův, v němž se budují základy pro sémantickou a pragmatickou složku zcela obecně pojaté teorie informace, vyjde v českém překladě.[20]


[1] Structure of Language and its Mathematical Aspects (vyd. R. Jakobson), Proceedings of Symposia in Applied Mathematics Vol. XII, American Mathematical Society, Providence 1961, 279 s. Srov. rec.: P. L. Garvin, IJAL 29, 1963, 174n., S. Marcus, Studii şi cercetări lingvistice 14, 1963, 265n. a Revue de mathématiques pures et appliquées 8, 1963, 497n., I. I. Revzin, Word 19, 1963, 388n. — Podobný ráz měla sekce metodologie a filosofie lingvistiky, zahrnující symposium o modelech v lingvistice, na sjezdu v Standfordu 1960, srov. Logic, Methodology and Philosophy of Science, Proceedings of the 1960 Intern. Congress (vyd. E. Nagel, P. Suppes, A. Tarski), Standford 1962, 528n. — Americká matematická společnost vydává také Proceedings of Symposia in Pure Mathematics.

[2] V ref. Matematičeskaja lingvistika, Trudy četvertogo vsesojuznogo matematičeskogo s’jezda (Leningrad, 3—12 ijulja 1961), t. I, Plenarnyje doklady, Leningrad 1963, s. 99.

[2a] Je to termín P. Ziffa, viz jeho Semantic Analysis, New York 1960.

[3] K terminologii viz např. V. Uspenskij, Algoritmus, Pokroky matematiky, fyziky a astronomie 8, 1963, 203.

[3a] Syntax v pojetí obecné semiotiky.

[4] N — jméno, S — věta.

[5] Srov. K. Berka, Logik o jazyce, SaS 23, 1962, 273n. Dále např. R. Freundlich, Ziele und Methoden sprachlogischer Forschung, Probleme der Wissenschaftstheorie, Festschrift für Viktor Kraft, Vídeň 1960, 1n.

[6] Viz H. B. Curry - R. Feys, Combinatory Logic I, Amsterodam 1958. Stručné uvedení do kombinatorické logiky u P. C. Rosenblooma The Elements of Mathematical Logic, New York 1950, 109n.

[7] Nejnověji srov. H. B. Curry, Foundations of Mathematical Logic, New York - San Francisco - Toronto - London 1963, 50n.

[8] Nejnověji viz jeho O logičeskom bazise lingvističeskoj teorii, Problemy strukturnoj lingvistiki 1963, Moskva 1963, s. 3n.

[9] Syntaktický model a syntaktický vzorec, Čs. přednášky pro sjezd slavistů v Sofii, Praha 1963, 119. Viz dále P. Sgall, Převodní jazyk a teorie gramatiky, SaS 24, 1963, 119 a 126.

[10] Viz Z. S. Harris, Co-occurence and transformation in linguistic structure, Language 33, 1957, 288. — Srov. H. Hiż, The Intuitions of Grammatical Categories, Methodos 12, 1960, č. 48, 1n.

[11] Rec. V. A. Uspenského jeho práce The Mathematics of Sentence Structure (Amer. Mathematical Monthly 65, 1958), viz ve sb. Mašinnyj perevod i prikladnaja lingvistika 4, 1960, 105n.

[12] Nejúplněji srov. Z. S. Harris, String Analysis of Sentence Structure, Papers on Formal Linguistics I, The Hague 1962.

[13] Srov. P. Novák, Některé otázky syntaktické analýzy, SaS 23, 1962, 12.

[14] Teoretickou problematiku prediktivní analýzy podrobně propracovala pod Oettingerovým vedením Sh. A. Geibachová, Inverses of Sentence Structure Generators, Mathematical Linguistics and Automatic Translation, Report No. NSF-11, The Comp. Lab. of Harvard University 1963. O prediktivní analýze angličtiny viz referát J. Panevové a L. Uhlířové zde na s. 144n.

[15] Podrobněji viz W. V. Quine, Word and Object, New York - Cambridge (Mass.) 1960.

[16] Proceedings of the Amer. Philos. Soc. 104, 1960, 444n.; ref. od I. I. Revzina viz sb. Mašinnyj perevod i prikladnaja lingvistika 5, 1961, 73n. (V této části jsem použil některých pasáží z rukopisného referátu L. Uhlířové o této Yngveho práci.)

[18] Viz i M. Eden, Handwriting and Pattern Recognition, IRE Transactions on Information Theory IT-8, 1962, 160. Z domácí lit. srov. M. Matula, Aplikace matematiky na studium psaní, Pokroky mat., fyz. a astron. 3, 1958, 245n. a 393n.

[19] V stati K. Berky a P. Nováka Výklad fonologických a gramatických pojmů pomocí pojmů teorie množin, SaS 24, 1963, 138 šlo o typy zaměnitelnosti jiné, z hlediska „přípustnosti“ vyšších celků (frází).

[20] Ve sb. Teorie informace a jazykověda, NČSAV (vyjde v r. 1964).

Slovo a slovesnost, volume 25 (1964), number 2, pp. 139-144

Previous František Kopečný: Druhé vydání České mluvnice

Next Jarmila Panevová, Ludmila Uhlířová: Z problematiky prediktivní analýzy