Časopis Slovo a slovesnost
en cz

Významnější práce z matematické lingvistiky v Maďarsku

Jan Průcha

[Chronicles]

(pdf)

Интересные работы по математической лингвистике в Венгрии / Travaux remarquables de linguistique mathématique en Hongrie

V současné době, kdy je u nás matematická a aplikovaná lingvistika teprve v začátcích, snažíme se mimo jiné seznámit se s výsledky, kterých na tomto úseku bylo dosaženo v zahraničí. Nebude proto bez zajímavosti všimnout si také prací maďarských.

V maďarské lingvistice převládaly až do poslední doby metody tradiční historickosrovnávací jazykovědy; její čelní představitelé se rozhodně stavěli proti všem novým, zvláště matematickým metodám. Menší skupina maďarských lingvistů, především z mladší generace, se o tyto metody již dříve zajímala, hlouběji studovala příslušnou literaturu a získaných poznatků se snažila užívat ve vlastních pracích.

Zvlášť důležitým mezníkem ve vývoji maďarské lingvistiky byla diskuse o problémech strukturální analýzy jazyka a o používání matematických metod v jazykovědě, která se konala z podnětu Maďarské akademie věd 29. až 30. března 1961 v Budapešti.[1]

Značná aktivita maďarských matematických lingvistů se odráží i v tom, že se letošní konference o strojovém překladu (v Budapešti 8. až 10. 3. 1962) mohla již zaměřit na konkrétní pracovní problémy, např. sestavení algoritmu pro strojový překlad z maďarštiny do ruštiny a angličtiny a z ruštiny do maďarštiny; vypracováním algoritmu maďarsko-ruského se zabýval již I. A. Meľčuk.[2]

[81]V současné době začínají pracovat nová centra matematické lingvistiky[3] a uskutečňují se důležitá organizační opatření, jako je účast matematika v oddělení, které pracuje na popisné mluvnici současné maďarštiny (Jazykovědný ústav), výchova matematiků se zaměřením na jazykovědu aj.

Z prací, jež by nás mohly zajímat, jsou to studie a články (ojediněle i knižní publikace) lingvistů L. Antala, F. Pappa, I. Fónagye, Gy. Szépeho, E. Vértesové, matematika T. Tarnóczyho aj., uveřejňované v několika jazykovědných časopisech.[4]

V maďarské lingvistice mají poměrně dlouhou tradici práce užívající při zkoumání kvantitativní stránky jazyka statistických metod. Již v r. 1896 a v r. 1906 se objevují studie vynikajícího hungaristy Z. Simonyiho o poměru písmen a hlásek v maďarštině.

Někteří badatelé prováděli již v 20.—40. letech statistické měření v oblasti slovní zásoby, tvarosloví a etymologie.[5]

Vedle lingvistů zkoumali jazyk také stenografové a pracovníci sdělovací techniky. Ti sestavili i první — a v maďarštině až dosud jediné — frekvenční seznamy slov, koncovek a přípon.[6] Těchto frekvenčních seznamů je možno dosud užívat, i když v lecčem již zastaraly. Pro praktické potřeby stenografie a k vhodnějšímu uspořádání klaviatury maďarského psacího stroje byly vydávány statistické práce o maďarském hláskosloví.[7]

V této poměrně bohaté tradici pokračuje dnešní maďarská lingvistika. Maďarští jazykovědci, jak už bylo řečeno, jsou dobře seznámeni s pracemi sovětských a západních autorů. Nejaktivnějšími teoretiky matematické a aplikované lingvistiky v Maďarsku jsou László Antal, Ferenc Papp a György Szépe, kteří kriticky hodnotí a často i využívají metod B. Whorfa, K. L. Pika, W. Fuckse aj. Řeší především základní a obecné otázky matematické lingvistiky.[8]

Na základě Shannonových prací vznikly již v letech 1951—1953 v Maďarsku studie, jež svou hodnotou převyšovaly tehdy podobné práce zahraniční: matematická studie T. Tárnóczyho o rozložení hlásek a hláskových spojení v maďarštině[9] a spíše fonetická studie E. Vértesové.[10] Obě práce zakládají své výpočty na materiálu jazyka umělecké literatury (maďarské klasické poezie a prózy) a hovorového jazyka (podle magnetofonových záznamů). Podrobně zachycují nejrůznější kombinace a pozice všech maďarských hlásek a vypočítávají jejich frekvenci. Dále se zkoumá, jak platí získané statistické údaje pro slova různého původu (u Vértesové na materiálu 20 696 hlásek).

Známý maďarský fonetik I. Fónagy v studii A szavak hossza a magyar beszédben (Délka slov v mluvené maďarštině, M. nyelvőr 59, 1960, 355—360) zkoumá statistickými metodami délku slov v mluvené maďarštině podle počtu slabik, srovnává frekvenci jednotlivých typů slov v textech mluvených a psaných a vypočítává redundanci mluvených textů.

[82]Zjištění, k nimž se dospělo ve jmenovaných pracích, mají již praktický význam pro sdělovací techniku apod. Pro lingvistickou teorii je prospěšné to, že na základě dílčích statistických prací o maďarských hláskách a slabikách bylo možno vyvodit obecné závěry. V nově vydané maďarské mluvnici A mai magyar nyelv rendszere (Struktura současné maďarštiny I, MAV Budapešť 1960, II, 1962), jsou i statistické charakteristiky maďarských samohlásek, souhlásek a slabik. Tak např. z 100 maďarských hlásek je průměrně 42 samohlásek (z nich největší frekvenci mají e, a) a 58 souhlásek (největší frekvenci mají t, l, n, k); podrobně je charakterizována maďarská slabika, která má nejčastěji typ KV () a KVK (ter); co se týče délky slov, je ve 4000 nejfrekventovanějších slov 22,5 % jednoslabičných, 60 % dvouslabičných, 15 % tříslabičných, 2,3 % čtyřslabičných a 0,2 % víceslabičných slov.

Značná pozornost se věnuje statistice slov a tvarů. V maďarštině, která je aglutinačním jazykem s bohatou soustavou sufixů a postpozic, viděli různí badatelé (Sauvageot, Sebeok, Hall) různý počet pádů. L. Antal na základě statistických rozborů stanovil počet pádů maďarských substantiv na 18.[11] Týž autor spolu s dalšími řeší v řadě článků obecné otázky statistiky slov a tvarů nezbytné pro připravovaný frekvenční slovník maďarštiny (např. otázku, co pokládat za „slovo“, frekvence zájmen a jmen osob aj.). Některé články jsou však čistě informativní a často bez jakéhokoli hodnocení jen seznamují se zákony Zipfovými, Condonovými, výpočty Shannonovými a požadují aplikaci na maďarštinu.

Debrecínský rusista F. Papp se pokusil v podnětných studiích A stíluselemzés egy mennyiségi mutatókra épített módszere (Stylistický rozbor založený na kvantitativních ukazatelích, Filol. közlöny 1961, 69—85) a Količestvennyj analiz slovarnoj struktury nekotorych russkich tekstov, Vjaz 1961, č. 6, s. 93—100 o rozbor stylu pomocí matematických metod. Zkoumaným textem jsou díla ruských spisovatelů. Papp užívá složitých statistických postupů nezávisle na G. Herdanovi, který tyto a další postupy rozvádí podrobně ve své knize Type-Token Mathematics (’s-Gravenhage 1960).

Hodnotíme-li Pappovu práci jako podnětnou, je tomu tak proto, že metodou, které užil k stylistickému rozboru, lze poměrně přesně získat objektivní údaje o slovní zásobě autorů, lze srovnávat různé texty, jejich překlady atd.

Vědeckou nespolehlivost metod tzv. lexikální statistiky (zvláště postupů M. Swadeshe) dokazuje podrobnými výpočty I. Fodor v zajímavé studii A glottochronologia érvényessége a szláv nyelvek anyaga alapján (Platnost glottochronologie na materiálu slovanských jazyků), Nyelvtud. közl. 63, 1961, 308—356.

Průkopnický význam, a to nejen v lingvistice maďarské, má studie L. Pappa Application de la statistique linguistique aux recherches de dialectologie historiques, Acta linguistica 12, 1962, 67—94. Autor podrobil statistickému zkoumání nářeční materiál (soubor 230 000 slabik z textů 16. stol.), aby na jistém konkrétním jevu ukázal prospěšnost využití matematických metod v historické dialektologii.

O aplikaci teorie informace na zkoumání jazyka se pokoušejí někteří maďarští lingvisté s větším nebo menším zdarem. Pozornosti zasluhuje stať I. Fónagye A hang és szó hírértéke a költői nyelvben (Entropie hlásek a slov v básnickém jazyce), Nyelvtud. közl. 1, 1960, 73—100. Protože Fónagy pracuje nejen s materiálem maďarštiny, ale i francouzštiny a němčiny, měly by jeho údaje obecnější platnost, kdyby byl zkoumaný materiál rozsáhlejší.

Ještě pozoruhodnější je studie T. Tarnóczyho A jeloszlás és a hírtartalom nyelveket meghatározó tulajdonságáiról (O faktorech určujících rozložení prvků a množství informace v jazycích), Nyelvtud. közl. 2, 1961, 61—78. Studie je v podstatě založena na konfrontaci statistických výpočtů z rozsáhlejšího materiálu maďarštiny (soubor 102 027 slov a soubor 30 146 slabik) s hodnotami entropie, které pro 9 různých jazyků určil W. Fucks. Tarnóczy dokazuje (také s pomocí četných grafů a tabulek), že nelze charakterizovat jazyk vůbec jen jedinou hodnotou (např. entropií slabik), jak to předpokládá Fucksova teorie, protože v jednotlivých jazycích (je to bezpečně prokázáno na maďarštině) jsou značné rozdíly [83]v těchto hodnotách v závislosti na funkčním a autorském stylu, žánru atd. Entropie fonémů v maďarštině zjištěná Tarnóczym je H = 0,4845, v angličtině a němčině podle Fucksových výpočtu je H = 0,5119 a H = 0,4900. Tarnóczy znovu ukazuje, že údajů, jako je počet fonémů ve slově, entropie fonémů, rozložení prvků aj., lze použít k charakteristice jazyků, resp. jazykových rodin.

K současnému stavu matematické lingvistiky v Maďarsku je možno ještě poznamenat, že se úspěšně rozvíjí jednak teorie strojového překladu, jednak zvláště studium syntaktického plánu jazyka metodou transformační analýzy. Avšak transformační analýza je dnes v Maďarsku poněkud přeceňována a je v ní spatřována všemocná metoda studia syntaxe (srov. F. Papp, Transformacionnyj analiz russkich prisubstantivnych konstrukcij s zavisimoj častjusuščestviteľnym, Slavica (Debrecín) 1, 1961, 55—83). S tím souvisí i větší zaměření maďarských lingvistů na zkoumání logicko-syntaktických modelů jazyka a jisté opomíjení studia pravděpodobnostních zákonitostí jazyka a matematických modelů jazykové struktury vůbec.

I když je maďarština svou strukturou zcela odlišná od češtiny, je potřebné věnovat maďarským pracím z matematické lingvistiky jistou pozornost a na těch úsecích, kde by se řešily otázky svým charakterem shodné s našimi, navázat i pracovní spojení s maďarskými lingvisty.


[1] Materiály konference byly již vydány tiskem: Vita a nyelvtudomány elvi kérdéseiről (Diskuse o zásadních otázkách jazykovědy), Budapešť 1962.

[2] O mašinnom perevode s vengerskogo jazyka, sb. Problemy kibernetiki, vyp. I, 1958, 222—264; viz také SaS 20, 1959, 287.

[3] Oddělení strojového překladu při Výpočtovém středisku MAV v Budapešti, Skupina pro výzkum teorie komunikace ve fonetickém oddělení Jazykovědného ústavu MAV v Budapešti, Oddělení matematické a aplikované lingvistiky Kossuthovy university v Debrecíně aj.

[4] Nyelvtudományi közlemények (Jazykovědné zprávy), Filológiai közlöny (Filologický sborník), Acta Linguistica, MTA: Nyelv és Irodalomtud. oszt. közl. (MAV: Zprávy sekce jazyka a literatury), Magyar nyelv (Maďarský jazyk), Magyar nyelvőr (Strážce maďarského jazyka).

[5] Např. Gy. Lazicius, A magyar szókészlet nagysága (Velikost slovní zásoby maďarštiny), M. nyelv 38, 1942, 104.

[6] Z. Nemes, A mygyar nyelv képzőjel- és ragstatisztikája (Statistika koncovek a přípon maďarštiny), 1932; Szóstatisztika egymillió szótagot felölelő ujságszövegek alapján (Statistika slov na materiálu jednoho miliónu slabik novinového textu), 1941; A mygyar parlamenti nyelv leggyakoribb szavai (Nejfrekventovanější slova maď. parlamentní řeči), 1933.

[7] Např. F. Mikes, 100 000 szótagra kiterjedő hangstatisztikája (Statistika hlásek v 100 000 slabikách), 1937.

[8] L. Antal, Kybernetika és nyelvtudomány (Kybernetika a jazykověda), Magyar Tud. 1, 1956, 7—12; F. Papp, A matematikai módszerek alkalmazásáról nyelvtudományunkban (O matematických metodách v naší jazykovědě), Nyelv- és Irodalomtud. oszt. közl. 17, 1961, 289—306 aj.

[9] A magyar hangzókapcsolatok eloszlása Ady költői nyelve alapján, Nyelvtud. közlemények 53, 1951, 107—152.

[10] Statistische Untersuchungen über den phonetischen Aufbau der ungarischen Sprache, AL 3—4, 1953—1954.

[11] Hány esete van a magyar főnévnek? (Kolik pádů má maďarské substantivum?) M. nyelv 56, 1960, 52—57.

Slovo a slovesnost, volume 24 (1963), number 1, pp. 80-83

Previous Jiřina Smrčková: Rumunské příspěvky k otázkám stylistiky

Next Petr Sgall: Maďarské kolokvium o základech matematiky, o matematických strojích a o jejich uplatnění