Časopis Slovo a slovesnost
en cz

VII. mezinárodní akustický kongres v Maďarsku

Jiřina Novotná

[Kronika]

(pdf)

7-ой международный акустический конгресс в Венгрии / Septième Congrès International des Sciences Acoustiques en Hongrie

Ve dnech 18.—26. srpna 1971 se konal v Budapešti 7. mezinárodní kongres akustický. Referáty byly přednášeny paralelně v deseti sekcích. Řešily se tu i otázky bezprostředně se dotýkající fonetického bádání: tak v sekci C byly přednášeny referáty z oblasti komunikace řeči a výzkumu řečového signálu, v sekci E referáty řešící možnosti konstrukce nových přístrojů pro přenos řeči a zpracování řečového signálu, sekce H byla převážně věnována otázkám sluchu a fyziologické akustice.

[265]Výše uvedené problematiky se týkaly také tři plenární referáty: vynikající referát sovětské badatelky L. A. Čistovičové[1] (z Ústavu fyziologie řeči I. P. Pavlova v Leningradu) Auditory Processing of Speech Stimuli — Evidences from Psychoacoustics and Neurophysiology. Čistovičová, dlouholetá pracovnice v oboru výzkumu fyziologie a percepce řeči[2] si klade při výzkumu vnímání řeči posluchačem dvě na sobě nezávislé otázky: (1) které parametry řečových stimulů jsou měřeny sluchovým systémem a jak takové měření provádět, (2) jak spojit výsledky jednotlivých měření a pokusů, abychom odhalili proces rozpoznávání řeči používaný posluchačem a zjistili jazykové jednotky, na jejichž základě proces vnímání řeči probíhá.

V referátu se Čistovičová zabývala pouze první otázkou. Vychází z modelu vnímání frekvenční analýzy řeči posluchačem a dochází k závěru, že charakteristiky filtrů odvozených z neurofyziologických a psychoakustických měření jsou pro simulaci frekvenční analýzy vhodnější než tzv. model kochleární, založený na Békesyho měřeních. Simulace frekvenčního analyzátoru posluchače pomocí skupiny lineárních filtrů může sloužit jako hrubá aproximace. Psychoakustické a neurofyziologické údaje ukazují, že do modelu, převádějícího vlnu řeči na prostorové rozdělení hustoty hlasitosti, reprezentující posluchačův ekvivalent krátkodobého spektra řeči, musí být začleněn fenomén adaptace. Protože neexistuje metoda pro měření distribuce spektrálních složek, měří se v laboratoři fyziologie řeči individuální aktivace nervového vlákna.

Západoněmecký pracovník P. Damaske (z Fyzikálního ústavu v Göttingen) podal v referátu Die psychologische Auswertung von akustischen Phänomenen přehled nejnovějších experimentů z oblasti psychologické akustiky. — Mnoho nových podnětů pro diskusi přinesl referát známého amerického akustika z Bellových laboratoří J. L. Flanagana Focal Points in Speech Communication Research. Flanagan mluvil o pokroku v oblasti výzkumu komunikace řeči, který byl způsoben jednak tím, že byla pochopena teorie systému dat, a dále značným rozvojem počítačů s poměrně obsáhlou pamětí. Na využití počítačových metod kladl mimořádný důraz: dají se mj. využít i pro ověření kvality mluvčího. Počítačovou metodou se provádí extrakce jednotlivých parametrů řeči a jejich srovnání s vloženým vzorkem (např. srovnává se průběh F1, F2, F3 nelineárně registrovaných). Počítačová metoda, pracující s výškou a amplitudou jakožto akustickými parametry, vykazuje také mnohem nižší výskyt chyb: u počítače 1 %, chyba posluchače tvoří v průměru 4 %. Poněkud skepticky se Flanagan staví k současným modelům percepce řeči; domnívá se, že v nejbližší době není naděje na jejich úplné vypracování. Kladně však hodnotí některé dílčí experimenty, které přinesly řadu nových poznatků. Pokusy se syntetickou řečí mají však — podle Flanagana — význam spíše pro automatickou identifikaci řeči než pro výzkum její percepce. Velmi ocenil také využití akustických metod při studiu produkce řeči, jako např. modelování hlasového traktu, elektromyografické studie artikulační aktivity, akustické určení funkce plochy hlasového traktu, modelování hlasivek a studium řídících povelů hlasového mechanismu.

Referáty v sekcích, které měly význam pro fonetickou praxi, lze zhruba rozčlenit do tří tematických okruhů: (1) Syntéza řeči a automatické rozpoznávání řeči. (2) Percepce řeči. (3) Výzkum artikulační činnosti s použitím elektroakustických metod nebo počítačové techniky. Z referátů věnovaných vytváření syntetické řeči je třeba jmenovat tři. Autory prvních dvou jsou pracovníci z laboratoří G. Fanta v Stockholmu, J. Liljencrants (Computer Vocal Response System Using Smoothed Stop Commands) a M. Derkach - G. Fant - J. Liljencrants - S. Pauli (Synthesis of Some Russian Utterances by Rules). Autoři předvedli systém několika ruských vět vyprodukovaných pomocí švédského typu syntetizéru řízeného podle systému Liljencrantsova a podle pravidel odvozených ze spekter syntetických kombinací VCV, namluvených ruskými mluvčími. Autoři podali také tabulky pro řízení formantových oblastí a produkci souhlásek (i popis programování), dále pro [266]řízení útlumů u souhlásek a údaje o tzv. krocích. Výsledkem práce bylo 13 syntetických ruských vět, z nichž 11 bylo ruskými posluchači správně identifikováno ihned po prvním poslechu.

Popis polského systému digitálního řízení svorkově analogového syntetizéru SYNFOR II podali pol. pracovníci J. Kacprowski a W. Mikiel (z Ústavu základních problémů techniky ve Varšavě) v referátu The Terminal - Analog Speech Synthetizer as Acoustic Output of a Computer. Informovali o současném stavu výzkumu syntézy řeči v Polsku, který nyní směřuje k aplikaci syntetizéru jako akustického výstupu počítače.[3]

Řada referátů z oblasti výzkumu syntézy řeči byla zaměřena na syntetickou simulaci a výzkum prozodických rysů; autory byli převážně Japonci. H. Fujisaki a H. Sudo v referátu Synthesis by Rule of Prosodic Features of Connected Japanese se zabývali takovými prozodickými rysy, jako je slovní přízvuk, větný přízvuk (intonace) a pauzování, v nichž se uplatňuje sémantický a syntaktický kontext. Jejich primárními akustickými koreláty jsou v japonštině variace Fo, úroveň hlasitosti a trvání jednotlivých segmentů. Podali funkční model pro generování obalové křivky pro výšku mluvené japonštiny prostřednictvím lingvistických povelů. Všechny typy japonského slovního přízvuku byly dány přechodem ve výši Fo nahoru nebo dolů na konci iniciálního segmentu. Z akustické analýzy řady mluvčích vyplynulo: (1) Každý typ slovního přízvuku je charakterizován stejnou obalovou křivkou výšky tónu v logaritmických souřadnicích. (2) Povely pro uskutečnění simulace řeči a přízvuku mají formu binárního vstupu do syntetizéru. (3) Existuje oddělený mechanismus pro řeč a pro přízvuk, který může být aproximován lineárními systémy, převádějícími binární povely na řídící signály. (4) Řídící signály jsou kombinovány a využity v nelineárním modelu hlasivkových oscilací. Parametry modelu a časování povelů bylo určeno metodou analýzy syntézou. Podobným postupem byl získán i model pro větnou obalovou křivku výšky tónu, založený na předpokladu, že (a) věta je rozdělena na několik fonačních intervalů, z nichž každý odpovídá binárnímu přízvukovému povelu, (b) fonační interval se skládá z přízvučných fází, z nichž každá odpovídá binárnímu přízvukovému povelu, (c) intonace otázky, stejně jako nekoncových větných úseků, je odvozena z jiného binárního povelu, který se vyskytuje v posledním úseku. Podle autorů může být tedy pro japonštinu mechanismus pro řízení intonací oddělen od mechanismu pro řízení přízvuku. Binární povely pro model jsou podle údajů autorů odvozeny z lexikální a syntaktické informace na základě fonologických pravidel.

Podobné problematice byl věnován i referát mladých amerických badatelů C. Cokera a N. Umedové Toward a Theory of Stress and Prosody in American English. Autoři provedli řadu akusticko-auditivních testů, na jejichž základě zjistili, že neexistuje pevný vztah mezi vnímáním přízvuku a jeho fyzikálními koreláty. Cílem pokusu bylo mj. (1) porozumět procesu vnímání lidské řeči, (2) vyprodukovat přirozenou syntetickou řeč. Při pokusech se zaměřili na přirozenou a pečlivou mluvu ve čtené podobě: 5 objektů četlo 12× 5 různých článků. Provedli analýzu těchto čtených promluv a na jejím podkladě vytvořili zjednodušená prozodická pravidla. Výsledky výzkumu mj. ukázaly, že k rozpoznávání přízvuku v izolovaných slovech je třeba mnohem více úrovní výšky i ostatních fyzikálních parametrů než při vnímání přízvuku v souvislých kontextech. Výška přízvuku v slovesných tvarech byla běžně nižší než u substantiv. Přízvuk u substantiv se nezvýrazňuje s jejich opakováním. Autoři referátu vzali v úvahu jako hlavní rysy přízvuku výšku a trvání a definovali absolutní přízvukovou škálu s monotónní korespondencí k přízvukovým korelátům. Předvedli tabulku, na které byla seřazena slova podle stupně výraznosti přízvuku. Často se opakující slova (slova tzv. neplnovýznamová) byla na stupnici nejníže. Slova umístěná na tabulce nejvýše byla ta, která lze jen těžko předurčit kontextem. Coker a Umedová vidí v simulaci přízvuku prostředek k získání větší srozumitelnosti syntetické řeči.

Na problematiku kongresu navazovala ještě dvě symposia, která se konala bezprostředně po jeho ukončení; symposium o hluku v Miškovci a symposium o řeči v Segedinu. Symposium v Segedinu (od 26. do 29. srpna [267]1971) bylo rozděleno do dvou sekcí. První se zabývala problematikou analýzy patologických hlasů a biologickým a farmakologickým výzkumem řečových jevů. V druhé z nich byly přednášky a diskuse z oblasti akustické analýzy a syntézy řeči, lingvistické a řečové struktury. V této sekci byla fonetická laboratoř Ústavu pro jazyk český ČSAV zastoupena dvěma referáty: J. Novotná, The Opposition of (h) - (ch) Phonemes in Czech Phonologic System a B. Borovičková - V. Maláč - M. Ptáček, Acoustic Correlates of Czech (h) - (ch) and their Synthetic Equivalents. Autoři referátů se pokusili na malém úseku ukázat způsob spolupráce celého týmu řešícího problematiku analýzy, syntézy a percepce řeči.

Některé referáty v této sekci byly speciálně zaměřeny na aplikace výzkumu řeči v telekomunikační praxi.

Akustický kongres v Budapešti a symposium v Segedinu poskytly plně možnost seznámit se v poměrně krátkém časovém úseku s nejaktuálnějším stavem výzkumu v oblasti akustické analýzy, syntézy a percepce řeči v celosvětovém měřítku.


[1] Srov. i L. A. Čistovičová, Metod issledovanija rešajuščich pravil, primenjajemych pri vosprijatii reči, ref. na 6. mezinárodním kongresu fonetických věd v Praze 1967, publikován v Proceedings of 6th Intern. Congr. of Phonetic Sciences, Praha 1970, s. 23—34.

[3] Srov. J. Novotná, Akustická analýza a syntéza řeči v Polsku, SaS 32, 1971, 40—45.

Slovo a slovesnost, ročník 33 (1972), číslo 3, s. 264-267

Předchozí Jana Ondráčková: VII. mezinárodní kongres fonetických věd v Montrealu (22.—28. 8. 1971)

Následující Zdeňka Trösterová: Sovětská práce o historii slov v historii společnosti