Časopis Slovo a slovesnost
en cz

Stockholmský seminář o komunikaci řečí

Jana Ondráčková

[Kronika]

(pdf)

Стокгольмский семинар о речевой коммуникации / Le séminaire de Stockholm consacré aux problèmes de la communication verbale (1974)

Pracovní zasedání ve Stockholmu s názvem Speech Communication Seminar (SCS) začíná mít svou tradici, i když pauza mezi posledním seminářem[1] a letošním byla dvanáct let. Letos se ho účastnili odborníci z 24 zemí (z Anglie, Austrálie, ČSSR, Francie, Indie, Japonska, Jugoslávie, Kanady, Polska, SSSR, USA aj.).

Seminář se konal v době od 31. července do 3. srpna 1974 a navazoval na 8. akustický kongres v Londýně. Jeho hlavním organizátorem byla známá Speech Transmission Laboratory, Department of Speech Communication (ředitel G. Fant). Organizací připomínal seminář loňské leningradské Symposium on Auditory Analysis and Perception of Speech.[2] Referáty přihlášené na stockholmský seminář vyšly jako „preprinty“[3] s dostatečným předstihem před zahájením semináře. Na semináři se referáty nepřednášely, ale diskutovalo se podle témat k příbuzným okruhům. Hlavní myšlenky referátů představili souhrnně (tematicky, nikoli mechanicky podle autorů) předsedové čtyř sekcí, zasedání sekcí neprobíhala paralelně.

První sekci s názvem Speech Wave Processing and Transmission řídili J. Holmes [172]a M. Schroeder. V této sekci převažovaly referáty s tematikou parametrické reprezentace řeči a jejího vyhodnocování. Byla zdůrazňována důležitost většího množství informací o utváření vokálního traktu (např. Atal, Nakajima, Rice).

V druhé sekci s titulem Speech Production and Synthesis by Rules, jejímiž předsedy byli J. Flanagan a B. Lindblom, hojně se vyskytovala témata elektromyografie a neurofyziologie, artikulační studie, aerodynamika řeči a zdroj hlasu, prozódie, syntéza řeči (její metody a pravidla). Do této sekce patří např. práce zabývající se signifikantními diferencemi některých souhlásek v rovině dynamické charakteristiky příslušných artikulačních pohybů a zdůrazňující potřebu systematicky organizovaného pozorování procesu produkce řeči při použití efektivní měřicí techniky se zřetelem na to, co je charakteristické pro percepci (Fujimura). Další referáty pojednávaly např. o modelování funkce laryngu (Kakita a Hiki), o labiální koartikulaci (Lubker), o různé asimilační schopnosti koncových alveolárních souhlásek, bilabiálních a velárních souhlásek (Kohler a Hardcastle), o symetrii vokálního traktu a o vztahu ústní a faryngální dutiny (Öhman a Zetterlund), o pohybech mandibuly, retrakci jazyčného svalu a o zaokrouhlování rtů při popisu samohláskového systému v korejštině a v japonštině (Kim a Fujisaki), o větší korespondenci určité rezonance s jednou částí vokálního traktu (Fant, Pauli).[4]

Příspěvky Norda, Liiva, Eeka, Potapovové, Blochiny, Boëa s Larreurovou a Harrisové se zabývaly prozodickými rysy řeči (např. modelováním frekvenčního průběhu ve větě, mluvním tempem, přízvukem a tematikou, pro kterou se zatím v češtině neustálil termín, totiž “timing”).

Za velmi zajímavou práci druhé sekce považuji referát Lindblomův vypracovaný ve spolupráci s Paulim a se Sundbergem, který pojednával o modelování koartikulace apikálních závěrových souhlásek ve švédštině. Podstatný zde není jazykový materiál, ale vtipnost, s jakou zvolili akustický model. Z hlediska akustického je nejúspěšnější model charakterizován dvěma parametry pro kontrolu pohybů špičky jazyka. Tyto dva parametry nazývají autoři “elevation” a “extention/retraction”. Autoři použili základního modelu pro samohlásky, publikovaného v r. 1971.[5] Vycházeli z předpokladu, že reprezentace předozadní kontury jazyka bude stejně vhodná pro samohlásky jako pro apikální závěrové souhlásky. Z uvedeného referátu vyplývá (velmi zjednodušeně řečeno), že prezence koartikulace je prediktabilní z minimálního pohybu jazyka, zatímco stupeň koartikulace je důsledkem extenzibility nebo rektability hrotu jazyka.

Délkou švédských samohlásek v různém kontextu se zabývali Fant se Stålhammarem a Karlssonovou. Zjistili, že se délka samohlásek zmenšuje v řadě: izolované samohlásky, samohlásky ve slově a samohlásky v kontextu. Kromě trvání měřili ve stejných výpovědích formantové frekvence a intenzitu švédských samohlásek. Formantové frekvence mají tendenci k větší neutrálnosti ve stejné řadě, tj. od izolovaných samohlásek, přes samohlásky v izolovaných slovech až po vokály v souvislé řeči. Všechny krátké samohlásky jsou redukovány přibližně stejným faktorem v F1 a v F2. Závislosti v trvání sledují známý model B. Lindbloma a K. Rappové.[6] Kontrast v trvání mezi dlouhými a krátkými přízvučnými samohláskami je menší v souvislé řeči než v izolovaných testovaných slovech. Celková intenzita se příliš nemění s kontextem.

Na uvedenou práci Fanta a kol. (hlavně na její první verzi)[7] i na práci Lindbloma a Rappové (o. c. v pozn. 6) jsme reagovali (J. Ondráčková a J. Machek) v referátu připraveném pro seminář.[8]

Ve třetí sekci, nazvané Speech Perception and Automatic Recogniton, dominovala témata rozpoznávání řeči v nižších rovinách, biaurální slyšení a hemisférická specializace a [173]percepce řeči z všeobecných aspektů (rozpoznávání řeči ve vyšších rovinách bylo reprezentováno pouze pěti referáty). První polovinu zasedání třetí sekce (s programem percepce řeči) řídili M. Haggard a H. Fujisaki, druhé polovině jednání týkající se automatického rozpoznávání řeči předsedali H. Fujisaki a D. Klatt. Za velmi zajímavý příspěvek této sekce považujeme referát L. Čistovičové s kolektivem. Autoři provedli pokus s percepcí jednoduchých rytmických modelů. Jejich cílem bylo najít minimální pauzu mezi dvěma akustickými signály, která je nutná k interpretaci stimulu jako dvouslabičná rytmická jednotka (jako dvouslabičný rytmický model). Snažili se tedy najít podmínky stimulu, za nichž existuje akustická percepce rytmické struktury.

Kvantitativní analýzou percepce řeči se zabývala Shockeyová a kol. Automatické rozpoznávání zjednodušených vět zkonstruovaných na omezeném lexiku bylo předmětem referátu Derkacha a kolektivu. Fujisaki s kolektivem se pokusil o formulaci koartikulačního procesu v oblasti formantových frekvencí a o její aplikaci na automatické rozpoznávání po sobě jdoucích samohlásek.

Připomeneme stručně ještě několik referátů, které mohou dokumentovat relativní tematickou pestrost třetí sekce. Týkají se např. hemisférické specializace pro produkci řeči (Sussman a MacNeilage), psychologických pokusů s maskováním řeči (Haggard), percepce znělostního kontrastu (Summerfield), závěrových souhlásek a formantových transientů (Rao), formantové diskriminace v auditivním systému (Cohen), počátečních a koncových přechodových segmentů samohlásek (Tsemal a kol.), modelu pro extrakci nazality a jejího percepčního hodnocení (Takeuchi a kol.), kontextové variace a percepce fonologické samohláskové délky (Nooteboom), rozpoznávání polských samohlásek v souvislé řeči pomocí počítače (Jassem), fonetického dekódování pro automatické rozpoznávání slov (Buisson a kol.), návrhu systému porozumění řeči (Klatt), hláskových změn a automatického rozpoznávání řeči (Ohala).

Předsedy čtvrté (poslední) sekce byli I. Hirsch a I. Lehistová. Tato sekce měla titul Speech and Hearing, Defects and Aids, Language Acquisition. Nejvíce referátů bylo věnováno odezírání a substituci sluchového vjemu hmatovým a vizuálním vnímáním. Několik příspěvků se zabývalo řečí jedinců s vadami sluchu. Jiné referáty se týkaly vhodnosti různých typů sluchadel.

Zajímavá teorie o možnosti odlišení vnímání řeči u dětí a u dospělých, vyslovené také na mezinárodním leningradském semináři o produkci a percepci řeči v r. 1966,[9] by mohly být podpořeny prací, která se zabývá některými aspekty vývoje produkce řeči a percepce řeči u dětí (Simon). Z referátu vyplývá, že malé děti užívají percepční systém odlišně od větších dětí.

Karlssonová se Stålhammarem se snažili užít spektrografické registrace ke kontrole správné výslovnosti cizího jazyka. Nový audiovizuální systém pro komunikaci neslyšících a nemluvících předváděl Šurlan. Levitt a kol. se zabývali akustickými, artikulačními a percepčními charakteristikami řeči u neslyšících dětí. Traunmüller vycházel z faktu, že pouhým odezíráním artikulačních pohybů rtů se nezíská mnoho informací, zvláště ne o způsobu artikulace souhlásek. Principem jeho aparátu, který řadí terminologicky do “lipreading aids”, je převádění artikulačních pohybů na vizuální signály. Např. pro neznělou frikativu je vizuálním protějškem červené světélko, zelené znamená znělou závěrovou atd. Pokus byl úspěšný v tom smyslu, že je možno pomocí této pomůcky k odezírání rozeznat jednotlivé souhlásky. Autorovi není dosud jasné, jak sám uvádí, do jaké míry bude jeho aparatura fungovat také pro souvislou řeč. Hlavní problém vidí v nedostatku pokynů pro intonační průběh promluvy. Domnívá se však, že jeho pomůcka k odezírání by mohla být kombinována s indikátorem, který by představoval intonační změny. Pro zprostředkování informací o intonaci by pak doporučoval využít smyslu hmatového, protože vizuální smysl je už silně zatížen.

Důležitost prozodických elementů řeči pro úspěšné odezírání demonstroval velmi názorně svým pokusem Risberg. Testoval pět normálně slyšících osob v pěti různých situacích: při samotném odezírání dosáhly správné odpovědi 40 %, při změně intenzity 19 %, při změnách intenzity a výšky 66 %, při odezírání a změnách intenzity 72 % a při kombinaci [174]odezírání se změnami intenzity a výšky dosáhly správné odpovědi 96 %.

Pokusy s elektronickým „odezíráním“ se zabývá řadu let Mártony. Také na stockholmském semináři představil v kolektivní práci výsledky svého výzkumu. Podle jeho koncepce mohou být hlásky přenášeny vizuálně nebo hmatově. Experimenty s odezíráním znělých a neznělých závěrových souhlásek pokračují dalšími pokusy s větami jako testovaným materiálem.

V jiném referátu popisoval Mártony s Agelforsovou dva psychoakustické testy u dětí s těžkými vadami sluchu. Tyto testy se týkají rozlišování intenzity a rozlišování frekvence F1. Autoři na základě svých pokusů uzavírají, že schopnost rozlišovat intenzitu není závislá na ztrátě sluchu, zatímco rozlišovací schopnost frekvence F1 na této ztrátě je závislá.

Vzhledem k značnému počtu referátů (asi 140) není možno informovat o materiálech stockholmského zasedání podrobněji. Na práce, jejichž předmětem jsou patologické případy, jsme upozornili úmyslně vzhledem k známému faktu, že mnohé patologické jevy mohou pomoci při objasnění jevů normálních.

Diskuse na semináři byly velmi kritické. Neztrácel se čas zdůrazňováním dobrých pracovních výsledků, spíše se debatovalo o tom, jak je třeba ve výzkumu pokračovat. Bylo např. konstatováno, že přestože nesporně vývoj syntetické řeči od r. 1962 (tento rok lze považovat za období jejích seriózních začátků) značně pokročil, není dosud na uspokojivé úrovni. Dále je velmi nutně třeba lepší model vokálního traktu a produkce řeči. Přes značnou obtížnost se zkoumá, jak extrahovat skutečnou funkci vokálního traktu při produkci řeči z akustických parametrů. Ani způsob vhodného programování pro počítač při syntéze řeči není bez potíží. Dále byla velmi zdůrazňována důležitost segmentace souvislé řeči z hlediska produkce i percepce.

V rámci semináře byly uspořádány exkurze spojené s výklady a s demonstracemi přístrojového vybavení na třech stockholmských pracovištích; z nich dvě jsou součástí “Royal Institute of Technology” (KTH). Je to jednak oddělení pro komunikaci řečí (Department of Speech Communication), jehož ředitelem je G. Fant, a jednak oddělení pro technickou audiologii (Department of Technical Audiology), které vede B. Johansson.

Na Fantově pracovišti byly také vystavovány přístroje zkonstruované speciálně pro výzkum řeči nebo pro pedagogické účely, zvláště pak pro speciální pedagogiku. Pozornost vzbuzovaly předváděné výsledky syntézy simulovaného dialogu (mužský a ženský hlas) z několika špičkových pracovišť zabývajících se analýzou a syntézou řeči. — Ve fonetickém oddělení stockholmksé univerzity soustřeďuje jeho vedoucí (B. Lindblom) pozornost hlavně na výzkumy fyziologie a percepce řeči.

Vzhledem k bezprostřední možnosti výměny názorů na společná témata odborníků nejen lingvistických a fonetických, ale i ze styčných oborů, lze považovat stockholmský seminář za přínos při řešení široké problematiky jazykové komunikace.


[1] Proceedings of the Speech Communication Seminar, Stockholm, Aug. 29 — Sept. 1, 1962. Speech Transmission Laboratory, Royal Institute of Technology, Stockholm 1963.

[2] Symposium organizovala L. Čistovičová ve spolupráci s G. Fantem.

[3] Všechny přednášky vyjdou v příslušných Proceedings. Budou doplněny diskusemi a souhrnnými tematickými přehledy vypracovanými předsedy jednotlivých sekcí.

[4] Viz G. Fant, Formants and Cavities, Proc. of the 5th Intern. Congress of Phonetic Sciences, Münster 1964, 1965, 120—141.

[5] B. Lindblom - J. Sundberg, Acoustical Consequences of Lip, Tongue, Jaw and Larynx Movement, JASA 50, 1971, 1166—1179.

[6] B. Lindblom - K. Rapp, Some Temporal Regularities of Spoken Swedish, PILUS 21, 1973.

[7] G. Fant - U. Stålhammar - I. Karlsson, Swedish Vowels in Speech Material of Various Complexity, SCS, Stockholm 1974, 139—147; U. Stalhåmmar - I. Karlsson - G. Fant, Contextual Effects on Vowel Nuclei, STL-QPSR 4, 1973, 1—18.

[8] J. Ondráčková - J. Machek, The Production of Vowels in the Stressed/Unstressed Position, SCS, Stockholm 1974 (7 stran).

[9] J. Ondráčková, Leningradský seminář o produkci a percepci řeči, SaS 28, 1967, 108 až 110.

Slovo a slovesnost, ročník 36 (1975), číslo 2, s. 171-174

Předchozí Vladimír Blažek: Práce o zasedání Mezinárodní komise pro studium spisovných jazyků slovanských ve Skopji

Následující Ludmila Uhlířová: O normě v ruské syntaxi