en cz

Akustická analýza a syntéza řeči v Polsku

Jiřina Novotná

[Rozhledy]

Акустический анализ и синтез речи в Польше / Analyse acoustique et la synthèse du langage en Pologne

Nepočítáme-li několik monografií a článků publikovaných během prvních deseti let po druhé světové válce, začal se rozvíjet systematický výzkum v oblasti akustiky řeči v Polsku kolem r. 1955, kdy byla založena v Poznani Laboratoř fonetiky PAN. Ta byla tematicky i pracovně úzce spjata s katedrou fonetiky filologické fakulty Mickiewiczovy university: prováděly se zde základní práce týkající se výzkumu percepce řečového signálu za různých podmínek přenosu řeči, byl zde uskutečněn výzkum srozumitelnosti a poznatelnosti řeči.[1] Zde byly rovněž započaty první práce z oblasti akustické analýzy řeči pomocí trojrozměrného akustického spektra v dimenzích „čas—frekvence—intenzita“.

Důležitým mezníkem pro výzkum akustického charakteru a syntézy řeči v Polsku byl r. 1963, kdy byla navázána úzká, dodnes trvající spolupráce mezi poznaňským pracovištěm a oddělením výzkumu vibrací IPPT PAN.[2] V této době začíná soustavná práce zaměřená na praktické aplikace a teoretické rozvíjení moderního výzkumu přenosu řeči, akustiky řeči a vytváření syntetického řečového signálu. Podle Fantova modelu[3] byl budován polský parametrový elektronický syntetizér SYNFOR. Zatím byla propracována syntéza jednoduchého řečového signálu. Dále se pracuje na [41]vyvíjení nových parametrových funkcí generátoru pro programování syntézy se zaměřením na vytváření prvních zkušebních vzorků souvislé řeči. Syntetizér byl ve své dnešní podobě již několikrát prověřen jako cenný přístroj pro fonetické výzkumy řeči. Základním cílem výstavby syntetizéru je však propracování systému, který by vytvářel přijatelnou polskou řeč za předpokladu, že bude řízen vhodnými parametrovými kontrolními signály. Najít takové optimální signály z hlediska ekonomie kódování je dnes jedním z hlavních úkolů i problémů této laboratoře.

Výsledkem spolupráce zmíněných polských pracovišť je vydání sborníku o problematice analýzy a syntézy řeči.[4] Sborník obsahuje výsledky výzkumů z oblasti akustiky řeči, teoretické studie o řešení syntézy řeči a výsledky některých experimentů se syntetickou řečí. V souladu s původním zaměřením spolupracujících pracovišť, přispívají studie poznaňských pracovníků k řešení společné problematiky spíše z jazykovědného hlediska. Práce J. Kacprowského, který zde zastupuje varšavské pracoviště (opatřil mj. sborník úvodem, v kterém zhodnotil stav polského výzkumu s přihlédnutím k dnešnímu stavu podobných prací ve světě), řeší problémy více technického rázu.

Výzkumu akustického charakteru řeči z hlediska stanovení základních parametrů některých hlásek jsou věnovány tři práce. K. Kudelová v studii o spektrální analýze polských frikativ (Spectral analysis of Polish fricative consonants, s. 93—188) vyznačuje na základě spektrálních obrazů frikativ (v kombinaci s vokály) frekvenční oblasti F₁, F₂, F₃ a F₄. Zkoumáním vzájemné závislosti mezi frikativami a sousedními vokály došla ke zjištění, že střední frekvence F₂ a F₃ frikativních konsonantů se mění v závislosti na samohláskovém kontextu. Naproti tomu výsledné frekvence (target) a zakřivení samohláskových formantů závisí na druhu sousedního konsonantu. Tedy druhé, třetí a částečně i čtvrté formanty frikativních konsonantů se v souvislé řeči vzájemně spojují a do jisté míry prolínají s formanty vokalickými. Kudelová doplnila práci bohatým obrazovým materiálem. Pokud jde o dosažené výsledky, týkají se v podstatě věcí, o nichž se už ve fonetické literatuře mnoho psalo. Vzájemná těsná závislost konsonantických a vokalických formantů je dána z artikulačního hlediska těsným sepětím obou hlásek v slabice. O důležitosti přechodu F₂ konsonantu k F₂ následujícího vokálu pro identifikaci souhlásek závěrových psal již Delattre, Liberman a Cooper.[5] Tento přechod bývá v akustických a fonetických pracích uváděn jako lokus. Jde o tu část frekvenční oblasti konsonantu, která úběžně[6] navazuje na F₂ následujícího vokálu. Později byla důležitost těchto formantových přechodů dokázána i pro identifikaci jiných konsonantů než jenom závěrových. Tyto tzv. lokusy byly ovšem stanovovány na základě trojrozměrného akustického spektra,[7] zatímco Kudelová pracovala s radiografickým heterogenním analyzátorem typu FRA 2a a se zapisovačem úrovně zvuku zn. Brüel & Kjaer (typ 2304).

W. Jassem v stati popisující akustické vlastnosti neznělých frikativ pomocí spektrálních parametrů (Acoustical description of voiceless fricatives in terms of [42]spectral parametres, s. 189—207) se pokusil o stanovení zásad, které by dovolily oddělit podstatné fonetické rysy existující mezi jednotlivými hláskami od rysů individuálních, kterými rozumí rozdíly závislé na zvláštnostech jednotlivých jazyků i jednotlivých mluvčích. Materiálem mu bylo sedm neznělých frikativ, jak se s nimi setkáváme v různých jazycích (např. angl. labiodentální f v slově fire; bilabiální japon. f v slově Fuji, palatální něm. ch v slově ich, pol. velární ch v slově chyba atd.). Autor vyděluje čtyři základní parametry: a) frekvenční rozsah šumu, b) relativní úroveň formantů, c) frekvenční oblasti formantů (při čemž termínu formant užívá v tomto případě v pojetí Fantově pro zdůrazněnou oblast šumovou), d) těžiště spektra (center of gravity), tj. první moment spektra. Na základě těchto čtyř parametrů se zde Jassem pokusil o objektivní kvantitativní analýzu hlásek, která by mohla mít jistý význam pro řešení některých problémů přenosové techniky a syntézy řeči.

Cílem práce L. Dukiewiczové o akustických ekvivalentech ę a ą v dnešní polštině (The acoustic-phonetic correlates of ę, ą in present day Polish, s. 53—69) bylo bližší určení polisegmentální struktury zvukových ekvivalentů pol. grafémů ę a ą a zjištění kvality za sebou následujících segmentů odpovídajících těmto grafémům. Dukiewiczová brala v úvahu pozice před frikativními souhláskami, pečlivou výslovnost před akustickou pauzou a pro srovnání také pozice před explozívami. Důkladnou spektrografickou analýzou (spektra na Key-sonagrafu), zpracováním poslechových testů hláskových kombinací filtrovaných v čase a také na základě zapisovaných (transkripcí) signálů reprodukovaných v opačném sledu zjistila, že zvukové ekvivalenty ę a ą mají v čase proměnlivý průběh, v kterém lze poslechem odlišit dva až tři segmenty. Kvalita počátečních segmentů odpovídá ústním samohláskám e, o. V dalším časovém průběhu byly segmenty určovány jako zadojazyčné nazalizované polosamohlásky nebo jako samohlásky s velmi silnou nosní rezonancí, připomínající nějakou nazální souhlásku. V některých případech byl zaznamenáván přímo nazální konsonant. — Na rozdíl od pozice před explozívou byl poslední segment ę, ą před frikativami i před pauzou určován převážně jako vokál, někdy ovšem, a to nezávisle na místě artikulace následující frikativy, jako velární hláska, která se zněním přibližovala zadojazyčné nazalizované polosamohlásce, nebo dokonce velární nazální souhlásce. Spektrografické obrazy ę a ą v pozici před frikativou byly však vždy typickým obrazem nazální hlásky.

Dukiewiczová svým experimentem podložila pozorování některých polských jazykovědců,[8] kteří poukazovali na znění posledního segmentu pol. nosovek před pauzou i na to, že stav výslovnosti ę a ą v dnešní polštině doznal jisté změny.[9]

Zajímavé by bylo srovnání pol. materiálu Dukiewiczové s českým. Čeština sice nemá nazální vokály, ale zdá se, že se zde mění stav a kvalita nazálních konsonantů v pozici před frikativami, zejm. v kombinaci n+s+k, která má v češtině dosti vysokou frekvenci výskytu díky sufixům typu -ský.

Změněný akustický charakter zejména české alveolární nazály n zaznamenáváme v těchto případech již při pouhém poslechu postupujících segmentů (při práci s tzv. Janotovým segmentátorem), kdy nám jej signalizuje silná nazalizace předcházejícího vokálu, plynulý přechod od vokálu ke konsonantickému elementu a nedostatek exploze. Nazalizace vokálu je v těchto případech přirozeně způsobena tím, že se měkké patro spouští a uvolňuje vchod do dutiny nosní již během přechodu od vokálu [43]k nazále: k provedení závěru buď nedojde, nebo je velmi oslaben. Výslovnost je zde ovšem potenciální, ale velký počet dokladů, které jsem zaznamenala při přepisu pásků rozhlasových besed a různých veřejných přednášek, svědčí o značné rozšířenosti této varianty nazály v pozici před souhláskovou skupinou s+k. Jde zde pravděpodobně o regresívní působení veláry k, artikulované na zcela jiném artikulačním místě než základní česká varianta nazály n. — Akustický obraz této varianty nazály se velmi blíží obrazu n velárního, který charakterizuje nedostatek exploze. Nazalizace předchozího vokálu se často projevuje zřetelností F₃ vokálu.

Teoretickým a ve svém dosahu i praktickým problémem z oblasti akustiky řeči se zabývá U. Kosielová v studii o vztahu spektrálního obrazu polských vokálů k frekvenci základního tónu (Relations between vowel spectra and fundamental frequency in Polish, s. 69—93). Autorka si položila otázku, zda významné individuální změny frekvence základního tónu, které závisí především na anatomickém uspořádání hlasivek, ovlivňují změny frekvence samohláskových formantů. Na základě analýzy zápisů deseti mluvčích dochází ke zjištění, že neexistuje korelace mezi frekvencí vokalických formantů a frekvencí základního tónu. Z tohoto zjištění vyplývá závěr jednak teoretický, že totiž ovládání nadhrtanových efektorů, které tvoří rezonanční dutiny, rozhodující o kvalitě hlásky, je nezávislé na ovládání hlasivek, jednak má toto zjištění praktický a podstatný význam pro řešení syntézy řeči v případě delších souvislých textů. Odpadla by pak potřeba tvoření a realizace algoritmů, které by určovaly změny formantových frekvencí v závislosti na frekvenci základního tónu.

Otázky percepce a modelování přízvuku se týká práce tří autorů W. Jassema - J. Mortona - M. Steffen-Batogové o percepci akcentu v signálech syntetické řeči polskými posluchači (The perception of stress in synthetic speach-like stimuli by Polish listeners, s. 289—309). Autoři zde do jisté míry navázali na starší studii W. Jassema a J. Mortona:[10] dvěma poslechovým skupinám po 50 osobách dali hodnotit prosté dvouslabičné logatomy sisi, sasa, sese (vytvořené parametrovým syntetizérem), každý v 70 různých verzích. Změny logatomů probíhaly ve třech dimenzích signálu. Měnila se: a) frekvence základního tónu, b) délka trvání samohlásek, c) úroveň intenzity (samohlásek). Pro každý rozměr byly změny prováděny zvlášť a kromě toho se v části logatomů měnily zároveň délka a intenzita. Poslechová skupina měla za úkol vyplnit anketu, do které zapisovala hodnocení každého logatomu podle kritéria místa akcentu. Posluchači měli tři možnosti hodnocení: (a) akcent na první slabice, (b) akcent na druhé slabice, (c) nedostatek rozdílu z hlediska akcentu. Výsledky byly zpracovány statisticky a srovnány s výsledky analogické práce provedené předem s posluchači anglickými. Statistické vyhodnocení tohoto pokusu ukázalo, že percepce přízvuku závisí více na změnách ve frekvenci základního tónu než na změnách dvou zbývajících dimenzí. Takové výsledky by byly ovšem silnou oporou zjištění W. Jassema,[11] že dominujícím činitelem pro percepci přízvuku v polštině jsou změny frekvence základního tónu. Autoři očekávají, že tato věc bude mít značný význam pro syntetickou řeč v parametrových systémech a také pro kódování řeči při přenosu elektroakustickými kanály s malou informační kapacitou.

Frekvence základního tónu je však zatím při konstrukci parametrových syntetizérů stále ještě problém. Podstatným činitelem, který rozhoduje o kvalitě syntetické řeči, je právě generátor hlasivkových pulsů — buď harmonických, nebo šumového charakteru. Technická realizace generátoru hlasivkových pulsů (tj. hrtanového tónu) by nebyla obtížná, kdyby byla předem známa frekvence opakování hrtanových [44]impulsů, tj. frekvence základního tónu. Potíž spočívá v tom, že až dosud nebyl rozřešen základní problém, s kterým se setkáváme vždy při řešení automatické identifikace řeči i syntézy řeči: extrakce základního tónu ze signálu přirozené řeči, určení momentu přechodu základního tónu v šum a naopak a vytvoření základního tónu v syntetizujících systémech. Jedna z okolností, která značně ztěžuje řešení konstrukce generátoru základního tónu, je to, že frekvence opakování hrtanových impulsů se v průběhu přirozené řeči mění ve značně širokých hranicích. Posluchač tyto změny vnímá jako změny výšky hlasu, které mu dávají živý a přirozený charakter na rozdíl od monotónního, a proto nepřirozeného znění hlasových generátorů. Frekvenční změny základního tónu závisí také na sémantickém charakteru věty. Další vlastností základního tónu jsou jeho změny frekvence při přechodech od vokálů ke konsonantům a naopak.[12]

Většina charakteristických rysů základního tónu závisí na individuálních vlastnostech hlasu mluvčího. Proto by se jejich objektivní hodnocení muselo opírat o důkladné statistické zpracování. Při dosavadním stavu výzkumu není zatím k dispozici dostatečné množství objektivních, experimentálně ověřených údajů, na jejichž základě by bylo možné docházet k nějakým obecnějším závěrům statistického charakteru, především určit, s jakou přesností je nutné podchytit všecky změny základního tónu. Do jisté míry úplnější informace týkající se statistiky parametrů základního tónu podává W. Rappaport,[13] který uvádí a porovnává nejen výsledky vlastního zkoumání, ale i výsledky citované v zahraniční literatuře.

Studie W. Jassema o frekvenčních oblastech samohláskových formantů jakožto diskriminačních vlastnostech lidského hlasu (Vowel formant frequencies as cues to speaker discrimination, s. 9—43) patří k řadě prací, které se týkají identifikace hlasu mluvčího. Výsledky prací podobného charakteru se uplatňují v praxi: při budování systémů pro přenos kódované řeči, při řešení problematiky hlasového ovládání strojů (spojení mezi člověkem a strojem) a dokonce i v kriminologii. Všechny dosavadní práce, jak je známe ze zahraniční literatury, zabývají se jednak rozpoznáváním mluvčího posluchačem, a to za různých podmínek přenosu řečového signálu, jednak měřením různých parametrů tohoto signálu s cílem najít individuální invarianty. W. Jassem podává ve své studii přehled i hodnocení těchto prací[14] a připojuje vlastní pokus. W. Jassem vychází z předpokladu, že z hlediska řečové komunikace jsou frekvenční oblasti formantů nositeli optimálního množství informace pro vokály a do značné míry i pro některé konsonanty. Změřil frekvenční oblasti čtyř nejnižších formantů 6 polských vokálů vyslovených 5× deseti mluvčími a stanovil střední hodnoty frekvence pro oblast každého formantu. Použitím bivariantní analýzy variance (rozptylu) pro frekvenční oblast dvou nejnižších formantů dospěl ke zjištění, že srovnáme-li vzájemně všechny hlasy, získáme na hladině významnosti α₁ = 0,01 rozlišení hlasů až do 85 %, zvýšíme-li hladinu vý[45]znamnosti na α₁ = 0,05 (tj. počítáme-li s 5%ní chybou) zvýší se procento rozlišitelnosti hlasů na 89 %.

Čistě technickou problematikou akustické analýzy a syntézy řeči se zabývají dvě studie: J. Kacprowského o teoretických základech syntézy polských vokálů v rezonančních formantových systémech (Theoretical bases of the synthesis of Polish vowels in resonance circuits, s. 219—289), v níž autor řeší, jak napovídá titul práce, teoretické předpoklady procesu vytváření syntetických vokálů, a studie inženýra poznaňského pracoviště H. Kubzdely o dvou typech aktivních pásmových filtrů pro analýzu řeči (Two types of active band-pass filtres for speech analysis, s. 207—219).

Sborník Speech Analysis and Synthesis je cenným příspěvkem k řešení problémů akustické analýzy a syntézy řeči a automatické identifikace řeči. Ačkoli se zájem autorů jednotlivých studií soustřeďuje ve většině případů pochopitelně především na polský jazykový materiál, mohou jejich teoretické výklady i konkrétní výsledky zajímat každého, kdo se zabývá problémy akustické fonetiky, komunikace řeči, hlasovým ovládáním strojů, identifikací mluvčích podle individuálních charakteristik hlasu apod.

[1] L. Dukiewicz, Wyrazistość głoskowa w pasmach oktawowych, Przegląd Telekomunikacyjny, 1963, 357—359; L. Dukiewicz—K. Dukiewicz, The Influence of Time Filtering on the Perception of Consonants, Proceeding of Vibration Problems, Warszawa 1964, 137—157; L. Dukiewicz—R. Piela, Szczególowe badania wyrazistości i rozróżnialności głosek polskich w różnych warunkach przenoszenia. Wyrazistość głosek języka polskiego w zaleźności od górnej granicy częstotliwości. I. část: Biuletyn Wojskowej Akademii Technicznej, 1961, č. 7, 45—67; II. část tamtéž, 1962, č. 4, 33—69.

[2] Zakład Badania Drgań Instytutu Podstawowych Problemów Techniki Polskiej Akademii Nauk.

[3] Model švédského syntetizéru OVE 2 byl popsán v práci G. Fanta Acoustic Analysis and Synthesis of Speech with Application to Swedish, Ericsson Technics, 1959, č. 1, 98—108.

[4] Speech Analysis and Synthesis, PWN, Warszawa 1968, 314 s.

[5] P. G. Delattre - A. M. Liberman - F. S. Cooper, Acoustic Loci and Transitional Cues of Consonants, JASA 27, 1955, s. 195n., dále také E. Fischerová-Jørgensenová, Acoustic Analysis of Stop Consonants, Miscellanea Phonetica 2, 1954, s. 42n.

[6] U nás M. Romportl v práci Zvukový rozbor ruštiny (Praha 1962) užívá pro to českého termínu úběžník.

[7] Na tzv. sonagrafu, tj. zařízení typu Visible Speech; u nás např. M. Romportl, srov. pozn. 6, dále B. Borovičková a V. Maláč v práci The Spectral Analysis of Czech Sound Combination, Praha 1967 stanovili lokusy pro češtinu na základě spektrogramů pořízených na analyzátoru TESLA, který je založen na podobném principu jako sonagraf, ale pracuje s negativním filmem a s melovou nebo logaritmickou stupnicí.

[8] H. Koneczna, Studium eksperymentalne artykulacji głosek polskich, Prace Filol. 16, 1934, 33—174; W. Doroszewski, Podstawy gramatyki polskiej, Warszawa 1952; L. Biedrzycki, Fonologiczna interpretacja polskich głosek nosowych, Biul. Pol. Tow. Językoznawczego 22, 1963, 25—45.

[9] Z. Stieber, Historyczna i współczesna fonologia języka polskiego, Warszawa 1966; M. Zagórska-Brooks, Nasal Vowels in Contemporary Standard Polish, Internat. Journal of Slavic Linguistics and Poetics 8, 1964, 102—109.

[10] J. Morton - W. Jassem, Acoustic Correlate of Stress, Language and Speech 88, 1963, 148—158.

[11] W. Jassem, The Phonology of Polish Stress, Word 15, 1959, 252—269.

[12] Zmiňují se o tom A. M. Liberman - P. G. Delattre - F. C. Cooper, Some Cues for the Distinction between Voiced and Voiceless Stops in Initial Position, JASA 29, 1957, s. 1254.

[13] W. Rappaport, Über Messungen der Tonhohenverteilung in der deutschen Sprache, Acoustica 8, 1958, 220—225.

[14] Např. L. G. Kersta, Voiceprint Identification, Nature 1962, s. 1253—1257; P. Ladefoged, The Nature of Vowel Quality, Rev. Lab. Fon. Exp. 5, 1960, 73—162; S. Pruzansky, Pattern-matching Procedure for Automatic Talker Recognition, JASA 35, 1963, 354—358; S. Pruzansky—V. Mathews, Talkerrecognition Procedure Based on Analysis of Variance, JASA 36, 1964, 1041—1047; W. A. Hargreaves - J. A. Starkweather, Recognition of Speaker Identity, Language and Speech 6, 1963, 63—67; Y. Ochinai, Einige Beiträge zur Stimmkunde vom Standpunkte der Vokalklangfarbequalitäten, Acoustica 14, 1964, 303—312. Z českých prací lze uvést monografii P. Janoty Personal Characteristic of Speech, Praha 1967.

Slovo a slovesnost, ročník 32 (1971), číslo 1, s. 40-45

Předchozí Milada Marková: Pozoruhodný příspěvek polské lingvistiky ke zkoumání neplně predikačně vyhraněných konstrukcí

Následující Růžena Buchtelová: Příspěvek k aplikaci některých sociolingvistických metod na výzkum výslovnosti slov přejatých

Menu
O archivu
Archiv
Nová domovská stránka
Hledání v archivu: