Blanka Borovičková
[Discussion]
Идентификация позиционных и стилистических вариантов гласных на основе чувственного восприятия / Identification perceptionelle des variantes de voyelles positionnelles et stylistiques
Část akustického spektra[1] realizující samohlásku téměř vždy signalizuje kromě samohlásky samé i určité relevantní rysy hlásek sousedních. Hodnotíme-li samohlásky z tohoto hlediska, nejsou moderní analyzační metody pouhým potvrzením známých fakt předchozích fonetických výzkumů, ale počátkem výzkumu nového. Na spektrogramech je zcela jasně patrno (obr. 1), že tenzní část
Obr. 1. Spektrogram slova posunovač; mluvčí č. 1
spektra samohlásky v mnohých případech prakticky neexistuje a lze sledovat pouze intenzi a detenzi. Ale i v případech zřetelné tenze samohlásky jsou ve spektrálním složení zřejmé markantní rozdíly mezi různým jejím vyslovením, jinými slovy na spektrogramech můžeme sledovat akustické změny realizující poziční a stylistické varianty samohlásky. Poněvadž jsme zjistili, že variabilita všech variant (stylistických i pozičních) je značná, seskupovali jsme nejprve varianty poziční, tj. všechny varianty samohlásky pro jednoho mluvčího.
Pro první část našeho výzkumu jsme převzali výsledky některých zahraničních prací v tom smyslu, že jsme brali v úvahu těžiště relevance samohlásek soustředěné do jejich prvních dvou formantů (obr. 2).[2] Oprávněnost tohoto často diskutovaného předpokladu bude možno s koneč-
[152]
Obr. 2. Množiny pozičních variant samohlásek u, o, a, e, i; mluvčí č. 1 | Obr. 3. Jádra množin pozičních variant samohlásek pro pět mluvčích |
nou platností potvrdit teprve pozdějšími pracemi, v nichž použijeme buď sady pásmových propustí, anebo syntetizéru pro identifikační poslechové zkoušky. Prozatím jsme jej přijali proto, že umožňuje grafické vyjádření a seskupování samohláskových pozičních variant. Jako příklad uvádíme obr. 2, kde jsou uvedeny pro jednoho mluvčího všechny měřené poziční varianty. Jsou tu zakreslovány množiny pozičních variant jednotlivých samohlásek tak, že každá varianta je zanesena jako bod. Oblasti nejhustších částí množin variant jednotlivých samohlásek jsou vyznačeny plnou čarou, celá množina samohláskových variant pak čárkovaně. Vyznačení hranic množin pozičních variant je velmi instruktivní, neboť ukazuje, jak značná je variabilita variant jednotlivých samohlásek. Jádra množin, značená plnou čarou, vymezují oblasti, které jsou od sebe navzájem dobře odděleny. Celé množiny samohláskových variant se v některých případech navzájem prolínají. U řady mluvčích lze nalézt jednotlivé samohláskové varianty, které spadají do oblasti sousední samohlásky. Tyto případy jsme kontrolovali poslechem pomocí vrátkovacího zařízení.[3] Daleko kritičtější je situace vzájemného překrývání množin variant patrná na obr. 3, kde jsou seskupována jádra množin samohláskových variant u 5 mluvčích. Plnými čarami jsou ohraničena jádra jednotlivých samohláskových množin pro každého mluvčího. Na každé obvodové čáře je značka mluvčího umožňující podrobnější čtení grafu. Oblasti nejčastějšího překrývání téže samohláskové varianty pro různé mluvčí jsou na obr. 3 vyšrafovány. Překrývání oblastí množin sousedních samohlásek je největší pro samohlásky s nízkým druhým formantem F 2. Velmi nápadný je na druhé straně rozdíl mezi jádry a-ových oblastí. Dvě oblasti se téměř vůbec nepřekrývají s oblastmi ostatních mluvčích. Z toho plyne velmi závažný důsledek pro konstrukci akustických vstupů samočinných počítačů a ostatních podobných aplikací analýzy řeči. Překrývají-li se částečně [153]oblasti jader množin variant, budou se celé množiny překrývat ve značné míře a není potom možno vypracovat univerzální kód akustického vstupu počítače, ale bude nutno vypracovat kód individuální, resp. skupinový, který bude nutno obměňovat podle charakteristických znaků u jednotlivých mluvčích. Tato skutečnost zkomplikuje řešení akustických vstupů, ale tím závažnější a podrobnější statistické informace musí stanovit akustická analýza řeči.
Odchylné umístění samohláskových formantů F1 a F2 jsme kontrolovali poslechem původních záznamů. Soustředili jsme se především na ty samohlásky, jejichž varianty zasahovaly do sousedních samohláskových množin. Pokud byla při poslechu hodnocena samohlásková varianta v celém slově, pak bylo těžké postřehnout odchylku způsobující záměnu za jinou variantu. Teprve když byly skupině posluchačů přehrávány výseky slova obsahující buď samohlásku samu nebo její kombinaci se souhláskou, byly patrny markantní změny v charakteru samohláskové varianty. Poslechové zkoušky zcela potvrdily výsledky sdružování samohláskových variant uvedených na obr. 2. Všechny výjimečné případy, tj. samohláskové varianty spadající do oblasti sousedních samohlásek, byly i při poslechové identifikaci hodnoceny jako varianty příslušné oblasti. To znamená, že změna ve frekvenci F1, F2 je relevantní pro identifikaci samohláskové varianty. Tak např. kombinace ťo a se z obr. 2 spadající do oblasti a-ové mají charakter a-ových variant v obou jmenovaných případech, i když poslechem samohláska neměla charakter čistého a, ale ǝ. Tato odchylka od předpokládané identifikace čistě a-ové nás vedla ke kontrole a-ových variant vyskytujících se v blízkosti hláskových kombinací ťo, se a bylo zjištěno, že všechny varianty samohlásky a byly hodnoceny jako ə s výjimkou pravé okrajové části množiny, kde se vyskytují kombinace ža, la, má. Tyto varianty spadají do průměrné oblasti jádra množiny a-ových variant, vyznačené na obr. 3. U ostatních mluvčích, kteří měli jádra množin a-ových oblastí posunuta směrem k vyšším frekvencím jak u formantu F1, tak i u F2, mají všechny varianty jádra o-ové množiny zřetelný charakter a i při poslechu samotných variant bez souhláskových spojení.
Protože v některých případech v spektrogramech lze těžko určit tenzní část samohlásky pro její totální tranzientní charakter, provedli jsme ještě jeden poslechový test spočívající v tom, že jsme přehrávali akustický signál v opačném smyslu.[4] Při hodnocení výsledků těchto testů musíme postupovat velmi opatrně, protože poslech zde není fyziologicky přirozený. Na druhé straně tato neobvyklost narušuje možnost doplňovat chybějící nebo deformované části akustického signálu hláskových variant. Tím odkazujeme sluchový analyzátor lidského ucha více do oblasti první signální soustavy. Akustický signál tedy srovnáváme se známými akustickými obrazy hlásek a jejich kombinací uložených v paměti a snažíme se neobvyklý signál zařadit do užívaného fonologického systému. Takto nově navozený způsob identifikace potlačuje sémantickou složku vnímání řeči.
Na obr. 1 je spektrogram slova posunovač pro mluvčího 1. Hlásková kombinace su byla hodnocena jako su, pokud ji posluchač slyšel v celém slově. Kontrolou umístění formantových oblastí F1, F2 samohláskové varianty u na obr. 2 zjistíme, že tato varianta spadá do okrajové části hláskové množiny u. Posloucháme-li samotnou samohlásku z kombinace su, můžeme ji jen stěží identifikovat jako u. Tato nejistota je způsobena jednak výjimečným postavením zvlášť druhého formantu F2, který je již v oblasti o-ové množiny, jednak velmi krátkým trváním vlastní samohláskové varianty, které je asi pouhých 40 ms (průměrná minimální délka krátké samohlásky v čtyřslabičném slově je 60—80 ms v závislosti na postavení ve slově).
Další případ záměny samohláskové varianty byl zjištěn v stejném slově v hláskové kombinaci nov, která byla identifikována při zpětném poslechu nav.
Poslední ukázka (obr. 4) je dokladem větší váhy druhého formantu F2. V kombinaci ňo v slově koňovi má druhý formant F2 téměř o 20 dB nižší amplitudu než formant F1 a přesto, že frekvence F1 má polohu u-ové varianty, byla samohlásková varianta identifikována jako o při normálním i zpětném poslechu.
[154]
Obr. 4. Spektrogram slova koňovi; mluvčí č. 4
Shrneme-li výsledky všech hodnocených výjimečných případů tohoto druhu[5] (které v rozsahu této stati nemůžeme uvést), můžeme říci, že pro samohlásky je při jejich identifikaci nejdůležitější postavení druhého formantu F2. Na největší váhu formantu F2 můžeme usuzovat již z objektivních parametrů. Nejdůležitějším z nich je umístění množin samohláskových variant (obr. 2) ve frekvenčních souřadnicích formantů F1 a F2. Zatímco frekvence formantu F1 je vždy společná pro dvě samohláskové množiny variant, vyjma a-ovou množinu, jsou frekvence druhého formantu F2 odpovídající středu množiny samohláskových variant od sebe navzájem odděleny. Formant F1 se sdružuje tak, že samohlásky u a i mají společný tento formant, podobně jako samohlásky o a e. Střední frekvence a-ové množiny tvoří výjimku; je samostatná a na obr. 2 je nejdále vpravo. Střední frekvence druhého formantu F2 samohláskových množin jsou umístěny tak, že nejnižší frekvenci má samohláska u a za ní následují postupně o, a, e a i. Vyjma dvou mluvčích, u nichž střední frekvence množin o a u téměř splývá, je rozlišitelnost jednotlivých samohlásek podle druhého formantu F2 postačitelná a možno soudit na jeho velkou váhu při percepční identifikaci.
Třetí formant F3, který jsme v našich úvahách obvykle vypouštěli, má zřetelně menší váhu pro identifikaci než dva první formanty. Tato skutečnost plyne již ze samé podstaty třetího formantu, který je ve většině případů druhou rezonancí delší dutiny hláskovacího traktu.[6]
Předpokládáme-li pevnou korelaci mezi poměrem frekvencí formantů F3/F2 nebo F3/F1, může třetí samohláskový formant F3 zastupovat buď F2, nebo F1 v případě jeho nepřítomnosti. Je to tedy spektrální složka užitečně redundantní. Podle této úvahy se dá předpokládat, že pro identifikaci hláskových variant lze seřadit jejich formanty sestupně podle váhy takto: F2, F1, F3.
Percepčně můžeme dokázat větší váhu druhého formantu F2 různými poslechovými testy. Jedním z nich je poslech hláskových skupin, v nichž první formant nemá své obvyklé místo na frekvenční ose. Takový poslech, jak jej uvádíme na obr. 4, zcela zřetelně ukazuje, že F2 má větší význam pro identifikaci než F1.
Výjimečné případy samohláskových variant můžeme hodnotit ještě z jednoho hlediska, z něhož se nám samohlásky podobně jako souhlásky dělí v zásadě do dvou skupin. Jednak jsou to samohláskové varianty se stacionárním charakterem, jednak s charakterem tranzientním. Stacionární jev je takový, který se v průběhu svého trvání ve svých parametrech nemění. U akustického signálu se může měnit intenzita a frekvence. Obecně předpokládáme, že frekvenční změna má větší váhu než změna intenzitní. Co do intenzity rozlišujeme náhlý a pozvolný začátek, který neovlivňuje charakter samohlásky (s rázem nebo bez něho). Mnohem důležitější při hodnocení [155]samohlásek je stacionárnost nebo nestacionárnost frekvenčního parametru. Z tohoto hlediska mohou nastat čtyři případy:
1. Hláska je stacionární, pokud v celém jejím trvání má frekvenční spektrum neměnný charakter (je pozorovatelná pouze tenze hlásky).
2. Hláska je semistacionární, pokud ve frekvenčním spektru převládá část stacionární (tenzní), ale přesto jsou patrné tranzienty, a to buď v intenzi, nebo detenzi hlásky.
3. Hláska je semitranzientní, pokud ve frekvenčním spektru převládá část tranzientní (tj. intenze nebo detenze), ale stacionární část (tenzní) je ještě patrná.
4. Hláska je tranzientní, pokud má charakter čistě tranzientní, to znamená, že po celou dobu trvání hlásky je patrný frekvenční posun v některé části spektra (existuje pouze intenze a detenze).
Hodnotíme-li samohlásky podle uvedených čtyř hledisek, můžeme shrnutím našich poslechových testů říci, že pro první dvě kategorie rozhoduje při vnímání postavení tenzní části formantů, přičemž má druhý formant F2 váhu největší. Mnohem složitější je rozhodnutí, která část semitranzientní a zvl. tranzientní samohlásky je relevantní pro percepční identifikaci. V mnohých takových případech je ze spektrogramů patrno, že zejm. druhý formant F2 prochází dvěma až třemi samohláskovými oblastmi a nelze určit, která oblast je nejdůležitější (obr. 5). Zpětný
Obr. 5. Spektrogram slova ďobat; mluvčí č. 5
poslech nám právě v těchto případech ukázal na způsob vnímání tranzientních samohlásek. Zjistili jsme, že pro vnímání v takových případech je rozhodující konečná fáze samohlásky. Dokladem toho je rozdílná identifikace samohláskových variant při poslechu normálním a zpětném. Na obr. 1 má samohlásková varianta o ve spojení nov klesající tranzientní charakter, takže intenze varianty vychází z oblasti a-ové a končí v oblasti o-ové. Proto tato samohlásková varianta byla hodnocena při normálním poslechu jako o a při zpětném poslechu jako a.
Dále jsme zjistili, že pro identifikaci samohlásek není rozhodující pouze akustický obraz samohláskové varianty s jejím nejbližším sousedstvím, ale že často přispívá k identifikaci relativní poměr samohláskových formantů sousedních fonetických úseků. Smysl tohoto tvrzení nejlépe vyplyne, aplikujeme-li ho na příklady. Na obr. 1 ve fonetických úsecích su, nov při zpětném poslechu bylo identifikováno so, nav. Záměna nov — nav již byla vysvětlena. Záměna u v o v kombinaci su je způsobena relativním vztahem samohláskového formantu F2 dvou sousedních fonetických úseků. Rozdíly v umístění formantu F2 pro obě samohláskové varianty u a o (su, nov) na frekvenční ose je poměrně malý, ale stačí na to, aby obě varianty byly hodnoceny jako varianty sousedních samohláskových množin. Hodnotíme-li určité úseky zpětným poslechem, pak zcela samozřejmě nemůžeme kombinaci su hodnotit správně, pokud v předchozím [156]fonetickém úseku byla samohlásková varianta hodnocena jako a. Zmíněný malý frekvenční rozdíl u formantu F2 pro obě samohláskové varianty způsobí záměnu u v o v kombinaci su. Při poslechu samotné samohláskové varianty u byla identifikace nejistá (mezi u a o). Tato identifikace nepřekvapuje, protože samohláska na obr. 2 je na rozhraní samohláskových množin u a o.
Tvrzení, že pro identifikaci samohláskových variant není důležitá absolutní hodnota frekvencí jednotlivých formantů, ale jejich vzájemný poměr, ať už jej bereme v úvahu pro jednotlivé varianty v rozmezí jediného fonetického úseku nebo několika úseků sousedních, můžeme si ověřit velmi jednoduchým poslechovým testem. Měníme-li rychlost posuvu pásku pro reprodukci magnetofonového záznamu, pak se zcela evidentně mění frekvence jednotlivých částí spektra akustického signálu. Mění se tedy i frekvence jednotlivých formantů samohláskových variant, ale zůstává zachován jejich vzájemný poměr.
A přece je možné zcela bezpečně rozumět mluvené řeči jak při zrychlování, tak i při zpomalování rychlosti přehrávaného záznamu. Srozumitelnost je dokonalá i při velmi značných změnách rychlosti. Ani stoprocentní změna ještě nestírá srozumitelnost řeči. (V rozhlasovém provedení Čapkovy hry „Válka s mloky“ byly role mloků čteny při standardní rychlosti posuvu pásku a přehrávány rychlostí dvojnásobnou). Při poslechu jednotlivých samohláskových variant pomocí vrátkovače se při změnách rychlosti nad 50 % v některých případech částečně měnil samohláskový charakter, ale v celých fonetických úsecích nebo slovech tyto změny charakteru nebyly identifikovány jako záměny samohláskové. Pokud jsou změny rychlosti přehrávání velké (± 100 %), je nutno základní tempo řeči zvolnit, resp. zrychlit, aby se nezhoršovala srozumitelnost řeči. Tento vliv však zasahuje spíše poznatelnost souhláskových variant.
Vnímání tak složitého akustického signálu, jakým je řeč, je komplexním procesem, v němž působí celá řada parametrů, které mají navzájem různý význam. Proto nemůžeme tvrdit ani o jednom způsobu identifikace, že by byl jediným. Komplexnost procesu vnímání spočívá v tom, že jednotlivé stimuly vyvolané akustickým signálem se sdružují složitým způsobem, který zatím nedovedeme modelovat. Největší potíž je v tom, že určité parametry, které mají primární postavení svou větší váhovou funkcí, někdy toto postavení ztrácejí a suplují je parametry nižších řádů,[2] např. zastoupení druhého formantu F2 formantem F3 nebo F1.
Zhodnotíme-li rozbor sledovaných výjimek, pak můžeme říci o percepční identifikaci samohlásek: Samohlásky na prvním místě poznáváme podle umístění jejich formantů na frekvenční ose. Přitom zřejmě platí pořadí relevantnosti, jak jsme je stanovili již dříve: F2, F1, F3. Tento způsob je primární identifikací samohlásek prvních dvou až tří kategorií, tj. u stacionárních, semistacionárních a v některých případech i semitranzientních samohlásek. Pro samohlásky tranzientní a v některých případech semitranzientní je rozhodující konečná fáze tranzientu, zejm. druhého formantu F2 pro hodnocení jeho frekvenční polohy. V případech odlišné artikulace, která mění částečně — ve výjimečných případech úplně — charakter samohláskové varianty, vypomáháme si při identifikaci vzájemným poměrem formantů samohláskových variant sousedních fonetických úseků. Tato pravidla se převážně uplatňují při identifikaci, v níž je vyloučen obsah, tedy v takových hláskových kombinacích, které jsou na úrovni bezesmyslové slabiky. Při identifikaci hláskových skupin nesoucích společně i význam musíme počítat s tím, že na identifikaci bude mít velmi silný vliv sémantická složka informace zprostředkované akustickým signálem.
[1] B. Borovičková, K otázce spektrální analýzy mluvené řeči, SaS 22, 1961, 263—268.
[2] F. S. Cooper, P. C. Delattre, A. M. Liberman, J. M. Borst, L. J. Gerstman, Some Experiments on the Perception of Synthetic Speech Sounds, JASA 24, 1952, 597 až 606. — J. D. Foulkes, Computer Identification of Vowel Types, JASA 33, 1961, 7—11.
[3] P. Janota, M. Romportl, Ein Beitrag zur phonetischen Methodik, Acta Univ. Carolinae Praha 1959, Philologica 1, 17—28.
[4] V Československu poprvé použila tohoto postupu A. Skaličková, What is English Aspiration, Acta Univ. Carolinae, Praha 1961, Philologica 1, 83—90.
[5] B. Borovičková, Spektrální analýza české řeči, kand. disert. práce, 1962.
[6] H. K. Dunn, The Calculation of Vowel Resonances and an Electrical Vocal Tract, JASA 22, 1950, 740—753.
[2] F. S. Cooper, P. C. Delattre, A. M. Liberman, J. M. Borst, L. J. Gerstman, Some Experiments on the Perception of Synthetic Speech Sounds, JASA 24, 1952, 597 až 606. — J. D. Foulkes, Computer Identification of Vowel Types, JASA 33, 1961, 7—11.
Slovo a slovesnost, volume 24 (1963), number 2, pp. 151-156
Previous Bohumil Palek: Informace o transformační gramatice
Next Ludmila Uhlířová: Zajímavá práce o lexikálních otázkách strojového překladu
© 2011 – HTML 4.01 – CSS 2.1