Časopis Slovo a slovesnost
en cz

Intonace a akustická syntéza řeči

Milan Romportl

[Články]

(pdf)

Интонация и акустический синтез речи / L’intonation et la synthèse acoustique du langage

1. O smyslu akustické syntézy řeči[1] a jejím významu i pro lingvistické a fonetické bádání není dnes pochyb. Zejména pro zkoumání jazykové relevance zvukových prostředků se stala metoda syntézy řeči nezbytnou, zvláště pak pro možnost přesného určení veškerých akustických parametrů jednotlivých zvukových elementů.

Je třeba konstatovat, že se dosud více využívalo syntézy řeči k prověřování akustických složek vytvářejících základní stavební prvky jazyka (hlásek — resp. realizací fonémů, akustických korelátů distinktivních vlastností atp.) než prozodických prostředků, mezi nimi především melodie (průběhu F0). Buď se tónový průběh eliminoval vůbec (monotonizoval se),[2] nebo se dosazoval zkusmo.

Předkládáme zde projekt syntézy větné intonace. Je nám jasné, že jako jazykový prostředek v jazycích onoho intonologického typu, k němuž patří čeština,[3] slouží intonace jako komplex zvukových prostředků vytvářejících intoném (resp. kadenci).[4] Provedeme-li však analýzu jejích zvukových komponentů, ukazuje se, že oním elementem, který rozlišuje v prvé řadě různé druhy kadencí, je složka tónová, průběh F0. Pokusili jsme se pak vymezit tuto složku, ve větné intonaci nesporně relevantní, jejíž základní jednotku jsme pak označili jako melodém (s pozičními variantami závislými od umístění přízvuku jádra výpovědi, které jsme označili jako alomely).[5]

Soustřeďujeme se zde především k vytváření tónové složky intonace v syntetické řeči. Necháváme tu stranou otázku charakteru základního tónu (jeho „barvy“) tzv. tvaru vlny F0. Zajímá nás zde především modelování jeho průběhu.

 

2. Z hlediska v nejužším slova smyslu lingvistického (kdybychom se omezili na zkoumání toliko oněch složek jazyka, které plní z Bühlerových funkcí toliko „Darstellungsfunktion“) by mohlo dostačovat, aby průběh F0 v syntetickém jazykovém signálu zprostředkoval především rozdíly ukončenosti a neukončenosti věty (tj. vyznačoval rozdíl mezi koncovým a nekoncovým větným úsekem), ale také vyjadřoval rozdíl mezi otázkou (zjišťovací) a větou netázací (např. u Dokulila „objektivní modálnost“).[6]

Kdyby šlo výhradně o tento cíl, pak by melodie mohla být při syntéze řeči modelována nesrovnatelně jednodušším průběhem F0, než jaký nacházíme v přirozeném jazyce. Isačenkovy a Schädlichovy pokusy s využíváním střídání a kombinace pouhých dvou frekvencí F0 tu ukázaly cestu.[7] Nepokoušely se — jak známo — simulovat přirozený průběh F0, naopak vyšly záměrně z naprostého ignorování faktu, že základní průběh v přirozené řeči není nikdy absolutně monotónní. Výsledné testy ukázaly, že přes takto deformovaný průběh jsou zmíněné jazykové (v tom i objektivně modalitní) kategorie identifikovány posluchači správně. Byl zde však přehlédnut důležitý fakt, a to schopnost adaptibility posluchače na změněné podmínky. [166]Neutrální, bezpříznakový (ovšem ne-monotónní) průběh F0 v přirozené řeči, od něhož se odchylky hodnotí jako příznakové, byl zde zastoupen průběhem monotónním, na nějž se posluchač již během několika prvých položek testu mohl adaptovat (i když si nepochybně byl stále vědom deformace přirozeného průběhu).

Průběh F0 (melodie řeči, intonace v užším slova smyslu) však plní v přirozeném jazyce i řadu dalších funkcí. V širokém rozpětí je prostředkem vyjádření exprese (v tom i Dokulilovy „subjektivní modality“, l. c.), postoje mluvčího k obsahu promluvy, popř. plní funkci apelovou. Ovšem ani tyto funkce nejsou pro komunikaci jazykem zanedbatelné, právě naopak — srov. např. rozdíl pozitivní a ironické výpovědi, který je vyjádřen pouze rozdílem v intonační formě; nebo rozdíl mezi neutrálním sdělením (n. rozkazem) a varováním. Natolik ochuzený průběh F0 tyto funkce naprosto nemůže plnit.

Soudíme, že přes veškerou složitost intonačního systému a mnohofunkčnost intonace (přitom ponecháváme zcela stranou individuální intonační rysy)[8] není nemožné modelovat v jazykové syntéze průběh F0 tak, aby bylo možno přijatelně diferencovat alespoň hlavní typy plnící základní funkce, a to tak, aby syntetická řeč splňovala, i pokud jde o průběh F0, požadavek přirozenosti a přitom bylo možno tento průběh po stránce akustické přesně definovat.

 

3. Celkem se přijímá teze, že základní, bezpříznaková melodická forma (např. u Hály „fyziologický tónový průběh“)[9] je klesavá (popř., jak zpřesňujeme, v oblouku klesavá).[10] Výchylky z této obloukově klesavé linie jsou obvykle funkčně využity.

Tento průběh je možno označit podle obvyklého grafického znázornění jako „podobný parabole“.[11] K tomuto označení bylo možno připojit kritické poznámky, nebylo však možno popřít, že při zobrazení průběhu F0 přístrojem Grützmacher-Lottermoser-Kallenbachovým[12] při použití logaritmické stupnice (jako při užití podobné stupnice metodami jinými) se takovýto průběh F0 v bezpříznakové melodické formě blíží průběhu paraboly, jejíž vrchol je v počáteční fázi výpovědi, nejčastěji posunut nemnoho (o 1 až 3 slabiky) od jejího počátku.

3.1 Mohli bychom uvažovat pro syntetickou řeč o automatickém ovládání průběhu F0, který by byl v neutrálních ukončených neotázkových výpovědích v češtině (oznamovacích a rozkazovacích větách, ale též v otázkách doplňovacích) aproximován parabolou a byl by vyjádřen rovnicí

(1) y = —k(x a)2 + b,

kde a<0, b<0, k≥0.

Přitom je ve směru osy x zobrazen časový průběh, ve směru osy y je vyjádřena frekvence základního tónu (v logaritmické stupnici). Hodnota a vyjadřuje posunutí vrcholu intonační formy ve směru osy x, b vyjadřuje stupeň, který odpovídá v užitém zobrazení frekvenci F0 v okamžiku dosažení vrcholu (tj. pro x = a, obvykle 1 až 3 slabiky od počátku). Hodnota k označuje stupeň „plochosti“ paraboly (tj. čím nižší je hodnota /k/, tím plošší průběh a bližší průběhu v přímce, tj. pro k = 0). Hodnota k<0 (v rovnici (1) -k) odpovídá konvexnímu (vzhůru vydutému) průběhu F0 v základním melodickém tvaru (na rozdíl např. k průběhu podle rovnice (3), kde při k>0 je průběh konkávní). Pro neutrální oznamovací větu bude např. absolutní hodnota /k/ bližší nule než pro větu rozkazovací atp.

[167]Zde i v dalších typech se budou ovšem realizovat pouze ony části průběhu, kterým budou v příslušných krocích odpovídat toliko hlásky provázené v přirozeném jazyce laryngálním tónem (tj. především vokály, avšak i konsonanty znělé, tzv. párové a především nepárové sonoranty).

3.2 Jestliže se budou syntetizovat výpovědi nikoli toliko neutrální neotázkové, bude třeba užít programu komplikovanějšího. Budeme-li souhlasit s Pollokem

 

 

                          Obr. 1                                                  Obr. 2

 

(pozn. 11), že i jednotlivé složky melodie řeči vykazují při zvoleném zobrazení průběh blízký parabole, budeme např. v češtině ve větě, která se realizuje v daném časovém rozpětí 0≤xr při zdůraznění závěrečné části pxr (která odpovídá jádru výpovědi, resp. části od přízvučné slabiky jádra do konce výpovědi) a s vrcholem v bodě, kde x = q (tj. v přízvučné slabice výpovědního jádra), aproximovat průběh v počáteční fázi (tj. 0≤xp) podle rovnice (1), v závěrečné části pxr podle analogické rovnice

(2) y1 = —k1 (x q)2 + b1,

kde p<q<r a kde bude platit b1>y pro x = q, /k1/>/k/, jak to bude odpovídat strmějšímu poklesu F0 v závěru. V zájmu přirozenosti průběhu bude výhodné, když y = y1 pro x = p, jak znázorňuje také obr. 2.

3.3 Pro modelování intonace zjišťovací otázky volíme pro češtinu první z melodických forem spisovných, tzv. stoupavou (nikoli formu druhou, stoupavoklesavou)[13] pro závěrečnou část (kadenci, melodém srov. pozn. 5).

Budeme zde aproximovat průběh F0 tak, že použijeme pro prvou část věty v rozmezí 0≤xp neutrálního průběhu podle rovnice (1), pro zbývající část pxr, která bude odpovídat jádru výpovědi, pak rovnice pro průběh konkávní (dolů vydutý)

(3) y2 = +k(x q)2 + b2,

kde p<q<r a kde b2y pro x = q. Přitom — opět v zájmu přirozenosti simulovaného průběhu — bude jako v případě (2) výhodné, když y = y2 pro x = p. Takový průběh představuje obr. 3.

 

4. Pokusili jsme se uvést alespoň hlavní typy případů modelování průběhu F0, jak se jich dá využít při syntéze češtiny (avšak i jiných jazyků s podobnou funkcí mluvní melodie). Nechtěli jsme však zůstat při pouhé teoretické úvaze a pokusili jsme se využít možností, které poskytuje československý syntetizér GVANO, zkonstruovaný ve Výzkumném ústavu Tesla VÚST v Praze na Jenerálce (inž. Ptáčkem).

[168]Na jednoslovné větě (spíš), kde slovo je současně i jádrem výpovědi, jsme realizovali ve dvou verzích průběh podle rovnice (1), a to a) s parametry k = 0,2, a = 3, b = 12 a b) k = 0,1, a = 2, b = 12. V obou verzích, které jsme opět uskutečnili v různých hlasových polohách, byla výpověď jednoznačně hodnocena jako oznamovací, průběh jako velmi přirozený. Při posunutí do vyšších poloh však byla výpověď vnímána jako expresívní, výrazněji se uplatňoval tónový průběh, zvláště verze a) působila pak dojmem výslovnosti afektované.

 

 

                             Obr. 3                                             Obr. 4

 

Tutéž větu jsme pak realizovali podle rovnice (3). Poněvadž šlo opět o výpověď jednoslovnou, kde slovo bylo jádrem výpovědi, užili jsme pouze rovnice (3) bez kombinací s rovnicí (1), jak ukazuje obr. 4. Byly dosazeny tyto hodnoty: p = 0, k = 0,2, q = 5, b2 = 2.

Výpověď — opět velmi přirozená — byla vnímána jednoznačně jako zjišťovací otázka. I zde se však při posunu do vyšších poloh pociťovalo narůstání citového zabarvení, popř. afektu. Tento zajímavý průvodní jev bude v dalších výzkumech podroben analýze.

Již tyto prvé pokusy ukázaly, že naše předpoklady modelace průběhu F0 je možno uplatnit v syntéze češtiny. Aplikace při syntéze jiných jazyků bude odlišná toliko v rozdílnosti využití melodických forem v jazykovém systému, nikoli však — jak se domníváme — v principu.

 

R É S U M É

Intonation und akustische Sprachsynthese

Für die Zwecke der Sprachsynthese wird der F0-Verlauf (bei Anwendung einer logaritmischen Frequenzskala) durch Parabelverlauf (bzw. durch Kombination solcher Verläufe) aproximiert. Es werden verschiedene Spezialfälle für das Tschechische berechnet und dargestellt. (Vgl. auch Verf., Some Problems of Intonation in Speech Synthesis im Band 9th Acoustic Conference in N. Smokovec 31. 8.—4. 9. 1971, Bratislava 1971 S. 142ff.)


[1] Srov. F. S. Cooper, Speech Synthesizers, Proceedings of the 4th Congr. of Phonet. Sciences, ’s-Gravenhage 1961, s. 3n.

[2] Např. v syntézách z Haskinsových laboratoří; srov. demonstrace P. Delattra na 4. a 6. mezinár. kongresu fonet. věd (Proceedings of the 4th Congr. …, s. 407n.; Proc. of the 6th Congr. …, s. 35n.).

[3] Srov. M. Romportl, Intonological Typology, Phonetica Prag. III (Symposium on Intonology; AUC-Philologica), 1972.

[4] Srov. F. Daneš, Intonace a věta ve spisovné češtině, Praha 1957.

[5] Srov. M. Romportl, K synonymii a homonymii intonačních prostředků, SlavPrag XIII, 1971, s. 211n.; též o. c. v pozn. 3.

[6] M. Dokulil, K modální výstavbě věty, Studie a práce lingvistické I 1954. 255n.

[7] A Model of Standard German Intonation, ’s-Gravenhage - Paris 1970.

[8] Srov. např. P. Janota, Personal Characteristics of Speech, Praha 1967, s. 7n.

[9] B. Hála, Uvedení do fonetiky češtiny na obecně fonetickém základě, Praha 1962, s. 328n.

[10] M. Romportl, K tónovému průběhu v mluvené češtině, Věst. KČSN III/1950, Praha 1951, s. 5n.

[11] Srov. K. - H. Pollok, Der neuštokavische Akzent und die Struktur der Melodiegestalt der Rede, Göttingen 1964.

[12] Srov. M. Grützmacher, Ein neuer Tonhöhenschreiber …, Proceedings of the 3th Intern. Congr. of Phonet. Sciences, Ghent 1939, s. 109n., též Phonetica 13, 1965, s. 3n. aj.

[13] Srov. F. Daneš, o. c. v pozn. 4, s. 110n.; M. Romportl, o. c. v pozn. 10, s. 39n.

Slovo a slovesnost, ročník 33 (1972), číslo 2, s. 165-168

Předchozí Petr Sgall: Základ a jádro, nebo presupozice a ohnisko?

Následující Jaromír Bělič: K české dialektologické terminologii