Časopis Slovo a slovesnost
en cz

Leningradské výzkumy percepce řeči a její automatické rozpoznávání

Jiřina Novotná

[Rozhledy]

(pdf)

Ленинградские исследования воспринятия речи и ее автоматическое распознавание / Recherches sur la perception du langage et sur son discernement automatique à Leningrad

V poslední době se těžiště zájmu badatelů zabývajících se otázkami řeči, a to jak její stránky artikulační, tak i akustické, přesouvá stále více na problémy zatím ještě velmi málo prozkoumané: na otázku vnímání řeči a tzv. psychoakustiku. Jedním z pracovišť, které se na problematiku percepční struktury řeči zaměřuje už delší dobu, je leningradský Institut fiziologii reči Sovětské akademie věd. U nás jsme se setkali s prací L. A. Čistovičové, vedoucí tohoto pracoviště, ve sborníku Teorie informace a jazykověda (1964), kde je překlad jedné z jejích statí týkající se otázek vnímání zejména z hlediska spolupráce sluchového a pohybového analyzátoru řeči.[1]

Již v této stati vychází Čistovičová z předpokladu, že člověk při vnímání řeči nehodnotí akustickou podobu jednotlivých hlásek, ale že si akustický signál přeměňuje v komplex artikulačních struktur, který odpovídá vyslovení těchto hlásek. Sluchový analyzátor pro řečové podněty předává totiž akustickou podobu řeči analyzátoru pohybovému a v něm jsou vyvolávány odpovídající artikulační struktury. Tím ovšem vzniká podstatná redukce informace obsažené v akustickém signálu, a to pak umožňuje hodnocení rychlých sledů jednotlivých elementů řeči. Redukci informace při vnímání dokázala Čistovičová ověřit poslechovými testy, v nichž byly skupinou posluchačů hodnoceny tříčlenné sledy akustických signálů.[2] Její výsledky ukázaly, že hlásky jsou hodnoceny při vnímání řeči na základě excitovaných artikulačních struktur, které jsou podstatně jednodušší než jejich odpovídající akustické podoby.

Výše uvedené pracoviště pokračovalo v tomto výzkumu a výsledkem jsou dvě větší monografie vydané v posledních dvou letech. V první z nich, nazvané Řeč, artikulace a vnímání,[3] jsou uloženy výsledky původních experimentálních výzkumů organizace procesu vytváření řeči, k nimž dospěl kolektiv fyziologů, lingvistů, matematiků a techniků. Jsou zde popsány nové metody výzkumu činnosti všech orgánů podílejících se na vytváření řeči, založené na využití moderní elektronové techniky. Pokud jde o výzkum organizace procesu vnímání řeči, jsou výsledky výzkumu interpretovány z hlediska komunikace člověka a stroje, tj. automatického rozpoznávání řeči. Z tohoto hlediska jsou zpracovány zejména kapitoly věnované organizaci a vnímání tzv. syntagmatu (syntagma chápou autoři ve smyslu vinogradovovského pojetí, tedy spíše jako jednotku rytmickou, spjatou melodií, přízvukem, dynamicky, nikoli ve smyslu jednotky syntaktické, jak je to běžné u nás) a slabiky. Stati obsažené v další monografii nazvané Mechanismy vytváření řeči a percepce složitých zvuků[4] tematicky navazují a bezprostředně se přimykají k okruhu otázek publikovaných v předcházejícím sborníku. Zde jsou uveřejněny další výzkumy věnované fyziologickým mechanismům vytváření řeči a zpracovávání složitých akustických signálů sluchovým systémem člověka. Výzkumy byly uskutečněny opět specialisty různých oborů, fyziology, lingvisty, matematiky a techniky, s využitím nejmodernějších metod a aparatury. Zejména obsah tohoto sborníku ukazuje, jak velký okruh znalostí vztahujících se k různým vědním disciplínám (fyziologii, lingvistice, psychologii [srov. zde zvl. s. 282n.] aj.) je potřebný k řešení [292]otázek vnímání řeči. To, že řeč a sluch spolu těsně souvisejí, je známo již velice dávno, avšak experimentální výzkum a teoretický výklad mechanismů určujících na jedné straně sluchovou percepci vůbec a na druhé straně percepci řečových jednotek a vytváření řeči, projevily se jako dva od sebe oddělené problémy. Skutečnost, že hlavní principy organizace sluchového systému vnímajícího složité zvuky, tj. zvuky s mnoha proměnlivými parametry, stává se jasnou teprve v poslední době. Tím se stává jasným i to, že teoretické vývody založené na výzkumu mechanismů rozpoznávání jednoho fyzikálního parametru — frekvence, až do nedávné doby tvořícího základ teorie sluchu, jsou nedostatečné pro pochopení principů uspořádání sluchového systému člověka. Autoři statí týkajících se vnímání řeči vycházejí z předpokladu, že sluchový systém je třeba zkoumat jako systém speciálně přizpůsobený k vnímání akustických signálů biologického původu, které samy o sobě tvoří vždy složené zvuky, tj. zvuky s celou řadou proměnlivých parametrů.

Výsledky výzkumu organizace a uspořádání mluvního procesu a procesu vnímání řeči popsané v obou monografiích vedou k závěrům, které se bezprostředně týkají výzkumu automatického rozpoznávání řeči a možností uskutečnit takový výzkum. Zkoumání korelace akustického obrazu jednotek řeči a odpovídajících artikulačních struktur nepochybně ukazuje, že se na řeč nemůžeme dívat jako na prostý sled zvukových jednotek řeči, z nichž každá má svou vlastní charakteristiku nezávislou na charakteristice sousedních elementů. To vede autory uvedených monografií k názoru, že sotva můžeme do budoucnosti počítat s automatickým rozpoznáváním řeči podle fonémů. V kapitole věnované organizaci slabiky (v sb. Reč, artikulace a vnímání) je podrobně vysvětlen průběh změny postavení artikulačních orgánů podle následující samohlásky již v samém začátku artikulace první souhlásky v slabice. Dvě souhlásky v slabičném typu CCV netvoří sled v tom smyslu, že by druhá souhláska byla tvořena pouze podle toho, jak byla artikulována souhláska první. I při velice pečlivé výslovnosti probíhá artikulace druhé souhlásky již během artikulace první. Zdá se tedy, že k tomu, aby akustický obraz mohl sloužit automatickému rozpoznávání řeči, bylo by užitečné, aby jednotkami rozpoznávání řeči byly v tomto systému slabiky (nebo i skupiny slabik), a nikoli fonémy.

K tomuto názoru byli přivedeni autoři monografií i tou skutečností, že slabika, jakožto artikulační komplex, je zakončena samohláskou. To znamená, že formální proceduru členění mluvního proudu na slabiky nebo skupiny slabik by bylo možno opřít o pozorování samohlásky. Jednu z možných procedur lze představit takto: od okamžiku začátku samohlásky, poměrně lehce určitelné podle výrazných akustických příznaků, sledujeme změny formantů na spektrálním obraze. Pokud změny probíhají v jednom směru, počítáme stále jednu slabiku. Jak se však směr pohybu formantů změní, určujeme počátek nové slabiky, zpracování údajů o první slabice ukončíme a získané výsledky o první slabice se uloží do paměťového zařízení nebo na výstup systému. Souhláska ve finální pozici v slově (syntagmatu) nebo skupina souhlásek může být v takovém případě pokládána za redukovanou slabiku. Vydělení takového samostatného elementu nemusí být spojeno s většími těžkostmi, protože mezi syntagmaty existují pauzy.[5]

Proti využití slabiky jakožto jednotky rozpoznávání řeči existuje řada námitek. Většina z nich se opírá o skutečnost, že v jazyce počet možných slabik vysoce převyšuje počet možných fonémů. To by tedy zdánlivě mělo vést k tomu, že zařízení rozpoznávající slabiky musí být podstatně složitější než zařízení rozpoznávající fonémy. Na druhé straně však řada badatelů dochází k opačnému názoru, že totiž z hlediska ko[293]nečného cíle automatického rozpoznávání řeči, kterým je např. mluvený vstup do samočinných počítačů, strojový překlad, kódování mluvených povelů apod., bylo by nejracionálnější využít jakožto jednotky rozpoznávání takovou větší jednotku řeči, jakou je slovo.[6]

Jak ukazují výsledky výzkumu uveřejněné v obou monografiích, člověk, který přijímá konečné rozhodnutí o slyšené informaci, používá do značné míry svých znalostí o její rytmické struktuře. Avšak rytmická struktura, která je příznakem syntagmatu, je společná jejich velkému počtu a záleží jen ve velmi malé míře na konkrétní fonetické charakteristice slabik, z nichž se skládá. Abychom zapsali rytmickou strukturu syntagmatu, není proto třeba vyčíslit fonetické charakteristiky každé konkrétní slabiky. Stačí ukázat počet slabik a ve vztahu ke každé z nich podat jistý výběr údajů týkající se délky, intenzity a přirozeně kmitočtu základního tónu. Kromě toho rytmickou strukturu nelze popsat, aniž předem rozčleníme syntagma na slabiky, přičemž konkrétní akustické obrazy je třeba změnit na abstraktní signály označující tyto slabiky.

Výsledky výzkumu dále ukázaly, že rytmická struktura syntagmatu je invariantní (tj. nezávislá na tempu řeči) pouze na úrovni slabik a větších jednotek řeči. To znamená, že proces normování syntagmatu v čase nutný k tomu, abychom vyloučili vliv tempa řeči, může se aplikovat pouze na sled signálů označujících slabičné povely, a nikoli na skutečnou běžnou řeč. Změny tempa řeči různou měrou ovlivňují délku samohlásek a souhlásek, což se dále projevuje jak na stacionárních, tak na přechodových jevech řeči. Proto normování v čase nemůže být provedeno prostým omezením nebo naopak roztažením původního signálu.

Podle autorů monografií je tedy užitečné pracovat při rozpoznávání slova (syntagmatu) nikoli s jeho bezprostředními akustickými obrazy (např. trojrozměrnými spektry), ale s údaji o jeho rytmické struktuře a o konkrétních fonetických charakteristikách slabik obsažených v slově, tedy s údaji vyvozenými postupně z akustického obrazu. Proces rozpoznávání slov založený na srovnání spektrogramu realizovaného slova s tzv. vzorovými spektry (tj. rozložení spektrálního obrazu v čase) celých slov[7] zvyšuje příliš nárok na obsah paměti rozpoznávacího zařízení.

Pokud jde o otázku, zda v případě, že přijmeme za jednotku rozpoznávání slabiku, bude skutečně nutné značně zvětšit pamět zařízení ve srovnání s rozpoznáváním na základě fonémů, pak odpověď závisí do značné míry na tom, jak bude prováděna procedura rozpoznávání slabik.

V posledních letech záležela základní metoda, z níž se při rozpoznávání řeči vycházelo, ve srovnání časově rozložených spekter analyzovaných signálů se vzorky — typickými rozloženími uloženými v paměti stroje.[8] Tato metoda se opírala o teorii statistického porovnávání obrazů. Odchylky přirozeného signálu od vzorku byly vysvětlovány různými druhy rušení nebo deformace. Řešení záleželo v tom, aby se našel vzorek, který by se co nejméně odlišoval od přirozeného signálu.[9] Kdyby však [294]jako základní jednotka rozpoznávání byla přijata slabika, vedlo by to ke značnému zkomplikování rozpoznávacího zařízení. Počet vzorků by se v tomto případě musel rovnat počtu možných slabik.

Údaje nashromážděné v obou sbornících vedou k předpokladu, že se v případě řeči uvedená metoda nemusí jevit jako optimální. Jestliže by řeč představovala řadu stacionárních jevů a všechny obtíže rozpoznávání spočívaly v tom, že stacionární jevy jsou proměnlivé v závislosti na jednotlivých mluvčích, pak je zřejmé, že daná metoda by byla nejvhodnější. Avšak v řeči, zejména za předpokladu rychlého mluvního tempa, stacionární jevy se nemusí vůbec projevit. Přitom mluvní tempo se může měnit ve velmi širokém rozmezí, jeho realizace je ovlivněna celou řadou nejrůznějších činitelů. Kromě toho v důsledku nedostatečné synchronizace pohybů artikulačních orgánů dochází ke značné proměnlivosti délky různých segmentů jedné a téže hlásky při její opakované výslovnosti. To vše vede autory k názoru, že úspěch popisované metody rozpoznávání je závislý na úspěšném provedení předchozího členění řeči na jednotlivé elementy.

Jak dále ukazují údaje o percepci řeči člověkem (kapitoly věnované v obou monografiích otázkám vnímání řeči, fonému jakožto jednotce vnímání a úloze rytmické struktury řeči při vnímání), úkol se může řešit i způsobem zásadně odlišným. Vydělení slabiky jako nejelementárnější jednotky, na jejímž základě se přijímají řešení, musí nutně odpovídat slabikám. Přijatelná by byla taková metoda, při které by jednotky odpovídaly fonémům, avšak pro přijetí takového řešení by byla nutná nejprve informace o jednotlivých částech slabiky. Přitom za minimální nositele užitečné informace v slabice se mohou pokládat ty akustické jevy, které probíhají při přechodu mluvního traktu z jedné polohy do druhé. Výzkum artikulačních pohybů, kterými se autoři podrobně zabývali, ukazuje, že jako invariantní se jeví pouze soubor pohybů, které se uskutečňují během vytváření slabiky. Časový vztah mezi jednotlivými pohyby není nikterak stálý. Při uskutečňování potřebného souboru artikulačních pohybů také probíhají určité změny akustického signálu. Např. při artikulaci hlásky t zvednutí jazyka k alveolárnímu výstupku nutně vede k změně kmitočtu F2 předcházející samohlásky, rozevření hlasivek vede k přerušení akustického signálu a k vytvoření pauzy atd.

Avšak je-li tomu tak, pak určení slabiky musí vycházet z výčtu akustických jevů, odhalených během její výslovnosti. Jako každý jednotlivý akustický jev v řeči odpovídá určité změně postavení artikulačních orgánů, tak každý soubor akustických jevů bude odpovídat jistému souboru artikulačních změn, k nimž dochází během realizace slabiky.

Otázka, jaké akustické jevy se musí v slabice hodnotit, je dnes poměrně jasná díky stále se rozvíjejícímu podrobnému výzkumu akustické stránky řeči a artikulačních mechanismů. Nejasnými zatím zůstávají otázky týkající se konkrétního způsobu automatického vydělení a měření těchto jevů. Jistou nadějí na řešení podobných problémů je metoda analýzy řeči syntézou.[10]

Obě uvedené monografie leningradského pracoviště přispívají významnou měrou k řešení problémů automatické identifikace řeči, zejména pokud jde o podrobný výzkum korelace mezi artikulační a akustickou stránkou řeči, o výzkum vztahů mezi [295]sluchovým a pohybovým analyzátorem řeči. Jejich hodnota spočívá mimo jiné též v tom, že materiálově a experimentálně podložily tzv. motorickou teorii vnímání nahrazující dřívější teorii akustickou.


[1] L. A. Čistovič, Tekuščeje rospoznavanije reči čelovekom, sb. Mašinnyj perevod i prikladnaja lingvistika 6, 1961 s. 39—79; 7. s. 3—44; v uved. sb. (s. 196—232) pod názvem Průběžné rozpoznávání řeči člověkem.

[2] Podrobnější popis a hodnocení tohoto pokusu viz ve stati B. Borovičkové - V. Maláče K automatické indentifikaci řeči samočinným počítačem, Slaboproudý obzor 7, 1965, 385—390.

[3] Reč, artikulacija i vosprijatije, Moskva—Leningrad 1965. Na tuto práci se odvolává A. V. Isačenko, Foném a jeho signálový korelát, SaS 27, 1966, 193—205.

[4] Mechanizmy rečeobrazovanija i vosprijatije složnych zvukov, Moskva — Leningrad 1966.

[5] Pokusy využít pro automatické rozpoznávání části řečového signálu, která se blíží svou délkou slabikám, byly uskutečněny již H. F. Olsonem - H. Belarem Phonetic typewriter, JASA 28, 1956, 1072—1081 a Phonetic typewriter III., JASA 33, 1961, 1610—1615

[6] M. A. Sapožkov, Rečevoj signal v kibernetike i svjazi, Moskva 1963. Badatel G. A. Miller, Decision Units in the Perception of Speech, IRE Trans. on Information Theory 8, s. 81—83 v úvaze o možných jednotkách automatického rozpoznávání řeči dochází k názoru, že k nejspolehlivějším výsledkům se dojde tehdy, budou-li jednotky odpovídat slovům nebo dokonce i větám.

[7] Tohoto postupu užili např. P. Denes a M. V. Mathews, Spoken digit recognition using time-frequency pattern matching, JASA 32, 1960, 1450—1455.

[8] Např. J. D. Foulkes, Computer identification of vowel types, JASA 33, 1961, 7—11; P. Welch - R. S. Wimpress, Two multivariate statistical computer programs and their aplication to the vowel recognition problem, tamtéž, s. 426—434.

[9] Pojednání o této metodě na základě srovnání ruských vokálů viz L. A. Čistovičová, O metodach obrabotki spektrogram glasnych zvukov, Biofizika 1957, č. 2, s. 441—451 a její Primenenije statističeskich metodov k opredeleniju fonetičeskoj prinadležnosti individuaľnogo glasnogo zvuka, sb. Voprosy statistiki reči 1958, s. 26—35.

[10] Tato metoda je v současné době nejvíce rozpracovávána v Massachussetském technologickém ústavu, srov. zejm. stati K. N. Stevens - A. S. House, An acoustical theory of vowel production and some of its implications, Speech and Hearing 1961, Res. 4, s. 303—320 a titíž autoři, Pertubation of vowel articulations by consonatal context: an acoustical study, tamtéž 1963, Res. 6, s. 111—128, dále C. G. Bell - H. Fujisaki - J. M. Heinz - K. N. Stevens - A. S. House, Reduction of speech spectra by analysis-by-synthesis techniques, JASA 33, 1961, 1725—1836.

Slovo a slovesnost, ročník 28 (1967), číslo 3, s. 291-295

Předchozí Jarmila Panevová: Strojový překlad v SSSR

Následující Eleonora Slavíčková: Podnětný ukrajinský příspěvek ke zkoumání vědeckotechnické terminologie