Časopis Slovo a slovesnost
en cz

Foném a jeho signálový korelát

Aleksandr V. Isačenko

[Články]

(pdf)

Фонема и ее коррелят в акустическом сигнале / Phonème et sa corrélation sous forme du signal

Fonologie a zejména teorie fonémů se v posledních letech vyvíjí jednoznačně ve znamení akustiky.[1] Epochální vynález automatického spektrálního analyzátoru, známého pod jménem sonagraf, spolu s vývojem elektronických strojů, umožňujících produkovat syntetickou řeč, znamenají pro naši vědu kvalitativně novou etapu. Je možno tvrdit, že dnešní fonologie je v podstatě akustická: foném se definuje jako soubor distinktivních rysů s přesně určenými akustickými parametry. Akustika sama zas čerpá z moderní fonologie a dnešní akustická teorie přenosu řeči, celý výzkum směřující k řešení problému „komprese“ řeči při přenosu kanálem je založen na fonematické teorii: segmentace zvukového kontinua je možná jen za předpokladu existence diskrétních jednotek — fonémů, odstranění redundance předpokládá vymezení relevantních akustických vlastností. Akustický výzkum si vyžádal revizi některých základních pojmů artikulační fonetiky: konstrukce elektronických analogů hlasového ústrojí rozšířila parametry klasické artikulační fonetiky o „třetí rozměr“; za jazykově relevantní „bod“ při tvoření vokálů se už nepokládá bod „největšího sblížení mluvidel“, ale oblast maximálního sevření hlasového traktu (oblast minimální plochy příčného řezu hlasového traktu). Tak se zjistilo, že např. hláska [a] není „tvořena“ v ústní dutině, ale v dutině hltanové (faryngální) a že [a] představuje vlastně po artikulační stránce „nejzadnější“ samohlásku.[2] Dnes už není možné zabývat se fonologickými otázkami bez přihlédnutí k výsledkům moderní akustické fonetiky. Zakotvenost moderní fonologie v akustice uskutečnila opětovné spojení fonologie a fonetiky, těchto dvou bratrských disciplín rozdělených společným předmětem studia. Některé zjevy ve vývoji naší vědy ovšem nasvědčují tomu, že se těžiště zájmu přenáší na dosud málo prozkoumané problémy percepce řeči a psychoakustiky. V této souvislosti je třeba připomenout pozoruhodnou práci M. Halleho a K. Stevensa o modelování procesu rozpoznávání řeči[3] a skvělou monografii Koževnikova a Čistovičové,[4] [194]v které se akustická teorie percepce nahrazuje teorií „motorickou“, tj. v podstatě artikulační. Ale to jsou jen první vlaštovky nových směrů v naší vědě. Zatím zůstává dnešní fonologie zakotvena v akustice.

Pro dnešní stav jazykovědy je nanejvýš důležitá odpověď na tuto otázku: Proč se dosud nepodařilo zkonstruovat automatický přístroj, který by mohl převádět akustický signál přirozeného jazyka (řečový signál) do sledu diskrétních symbolů (jednotek fonematické transkripce)? Tento problém nabývá při řešení problémů automatizace v průmyslu, ale i při řešení závažných problémů řízení raket při výzkumu vesmíru stále větší význam. Dosud je člověk nucen užívat v komunikaci mezi člověkem a strojem takový kód, který je srozumitelný stroji, ale těžkopádný a nákladný pro člověka. Bylo by mnohem jednodušší, kdyby stroj mohl přijímat povely vyslovované člověkem. Takový stroj by musel mít zařízení, které se obvykle nazývá „fonémový detektor“. Musel by být schopen vybrat z nepřehledného množství informace obsažené v akustickém řečovém signálu jen to, co je z hlediska jazyka relevantní: musel by tedy být s to identifikovat v akustickém signálu koreláty fonémů. Jak je známo, takový stroj neexistuje. To, co někdy čteme v novinách a v odborných časopisech o vynálezech tohoto druhu, je reklama. Existují sice stroje, které mohou rozeznávat např. prvních deset číslic (od 0 do 9), ale dělají to na základě jazykově naprosto nesignifikantních rysů.[5] Proto se musíme ptát: Jak je možné, že při dnešním stavu fonologie, která určuje fonémy na základě akustických parametrů, a při dnešním stavu elektronické techniky se dodnes nepodařilo zkonstruovat automatický fonémový detektor? Nemůžeme odhadnout technické problémy takového zařízení, ale myslím, že chyba není u techniků. Technikové nutně pracují na základě lingvistické teorie, kterou jim dodávají jazykovědci. Bude to tedy zřejmě lingvistická teorie — současná teorie fonémů, která nedovoluje v praxi ověřit správnost dnes běžných interpretací fonémů. Pokusím se v dalším rozvést tuto myšlenku.

Roku 1952 vyšla cyklostylovaná publikace Jakobsona - Halleho - Fanta Preliminaries,[6] která se měla zřejmě stát základem k diskusi. Využití tehdy nových analyzačních metod dovolovalo autorům předpokládat, že (1) záznam signálu na sonagramu lze jednoznačně segmentovat na diskrétní jednotky, které se nepřekrývají, a že (2) takové segmenty se dají jednoznačně charakterizovat souhrnem čistě fyzikálních vlastností, které je možno bezprostředním pozorováním a měřením zjistit v signálu. Šlo v podstatě o důsledné rozvinutí teorie fonémů, která byla založena v pražské fonologické škole a která díky technickému pokroku dostala v Americe možnost nové formulace. Sonagramy připojené k textu Preliminaries velmi sugestivně znázorňovaly fyzikální podstatu distinktivních rysů. Není divu, že tato publikace vyvolala nadšení zvláště u těch lingvistů, kteří sami nepracovali v oblasti akustické fonetiky a neměli možnost, aby si sami ověřili správnost uvedených údajů. Teorie distinktivních rysů si však získala popularitu i v kruzích profesionálních fonetiků, akustiků a spojařů, protože nepřehledné množství závažných akustických parametrů lidské řeči redukovala na minimum.

[195]Roku 1956 vyšla další publikace Jakobsona - Halleho, tentokrát s mnohem náročnějším titulem Fundamentals of language (Mouton 1956). Obsahovala mimo jiné klasifikaci distinktivních rysů. Byla to nová ucelená teorie fonémů, v níž se tvrdilo, že se fonologické systémy všech jazyků světa dají postihnout na základě přesně 12 (ne 11 nebo 13) distinktivních rysů definovaných akusticky a artikulačně.[7] Je třeba si uvědomit, že tato publikace nesledovala cíl umožnit automatické rozeznávání fonémů. Její cíl byl čistě lingvistický: byl to návod k budování fonologických systémů, jejichž hlavním kladem mělo být odstranění nadbytečnosti. „Redukcí fonematické informace … na nejmenší počet alternativních rozhodnutí dostáváme nejekonomičtější, a tedy i optimální řešení: minimální počet nejjednodušších operací, který by stačil na zakódování a dekódování celé zprávy.“[8] Motiv ekonomičnosti, jednoduchosti a boj proti redundanci byl tehdy pro americkou jazykovědu příznačný.[9] Ačkoli je známo, že jazyk se nemůže obejít bez nadbytečnosti, pokládalo se odstranění redundantnosti za hlavní ctnost fonologického popisu. Kam až může dospět boj proti nadbytečnosti, ukázal velmi vtipně logik Y. Bar-Hillel v kritické recenzi knihy Fundamentals of language (Word 13, 1957, 328). V souladu s postulátem naprostého odstranění nadbytečnosti by bylo třeba definovat čtverec jako obdélník se třemi stejně dlouhými stranami. Motiv maximální ekonomičnosti se opakuje i v dalších pracích. Celý binarismus distinktivních rysů je založen na boji proti redundantnosti. Ukazuje se totiž, že je jednodušší nerozlišovat tři stupně otevřenosti vokálů (jak tomu bylo ještě v Preliminaries), ale rozbít triární vztah na dva binární. M. Halle vyhlašuje ve svých pozdějších pracích, že princip jednoduchosti je třeba interpretovat v čistě „technickém“ smyslu slova: jednodušší je ta interpretace, která vyžaduje menší počet symbolů. Deset-dvanáct symbolů pro distinktivní rysy je méně než 30-50 průměrné fonematické transkripce některého jazyka. Proč je však fonematická notace „(f)“ méně úsporná než notace stejného fonému u Halleho,[10] není pochopitelné.[11]

„[— vok]

[+ kons]

[— zněl]

[+ frik]

[196][+ drsnost, stridentnost] („strident“)

[— zaostřenost] („sharped“)

[+ nízká tonalita]“

Důsledné uplatnění principů úspornosti symbolů jako jediného měřítka jednoduchosti popisu a odstranění redundantnosti by musilo nutně vést k zavedení dvojelementového kódu používajícího minimální počet symbolů 0 a 1, kterým se dají postihnout všechny distinktivní rysy.

Teoreticky pozoruhodným přínosem R. Jakobsona ke všeobecné teorii fonologie byla hypotéza, vyslovená již v r. 1939 v Gentu, propracovaná za války (1941) a znovu nastolená v akustickém ruchu, podle které základní tonalitní opozice jsou u vokálů a konsonantů izomorfní.

 

Tvrzení, že [k] je „kompaktní“, tj. že se vyslovuje s maximální koncentrací akustické energie v střední oblasti spektra, dokládá R. Jakobson kromě jiného odvoláním se na Grimma, který pokládal velární okluzívu za „nejplnější ze všech vyslovitelných konsonant“ (citované Fundamentals, s. 39). Ovšem Grimmův impresionismus nebyl a ani nemohl být podložen akustickými daty. Jeden ze spoluautorů knihy Preliminaries, Fant, podotýká, že „popis akustických vlastností fonémů takovými slovy jako značný rozptyl energie ve spektru a v čase je hodně neurčitý a prakticky nepoužitelný bez kvantitativní definice pojmu rozptyl energie“.[12] Víme však, že značná část fonologů pracuje právě s takovými kvantitativně nespecifikovanými pojmy a buduje na jejich základě fonologické systémy.

Jakobsonova teorie byla přijata velkou částí jazykovědců s nadšením a bez kritiky. Závažné kritické hlasy — recenze zakladatele moderní akustické fonetiky M. Joose[13] a závažné připomínky k logické stavbě celé teorie distinktivních rysů v citované recenzi Y. Bar-Hillela — byly ignorovány. V posledních deseti letech vznikly stovky prací, v nichž se distinktivní rysy braly za pevný základ v synchronických a diachronických fonologických studiích. Příkladem takové mechanické aplikace distinktivních rysů je Šaumjanova práce o vývoji polského fonologického systému.[14] Zatím se ovšem vyvíjela i teorie sama: měnila a doplňovala se kritéria. Postupně se upouštělo od striktně akustické interpretace distinktivních rysů.

[197]Všimněme si nyní čistě lingvistických aspektů teorie distinktivních rysů. Jak je známo, distinktivní rysy jsou uspořádány podle určité hierarchie: první rozhodnutí se týkají základních rysů vokaličnost/nevokaličnost a konsonantičnost/nekonsonantičnost. Na základě přítomnosti nebo nepřítomnosti těchto rysů se určují čtyři třídy hlásek (v původním znění se určují třídy fonémů):

 

vokály

konson

sonory

„glidy“

vok

+

+

kons

+

+

Důležitou součástí teorie je předpoklad, že hlásky (fonémy) spojené jedním rysem tvoří přirozené třídy hlásek. Jakou přirozenou třídu tvoří „glidy“? M. Halle klasifikuje ruské [j] jako „glide“ (klouzavou hlásku). Distribuční analýza však jednoznačně ukazuje, že se foném [j] v ruštině chová jako konsonant.[15] Fant, který zkoumal akustickou podstatu ruských konsonantů, píše, že „ruské j-ové hlásky jsou převážně znělé palatální frikativy“ (cit. Acoustic theory …, s. 216). Známé pravidlo o tom, že se v ruštině před měkkými konsonanty vyslovují „přední“ varianty vokálů [a o u e] …, dostává těžkopádnou formulaci, jsme-li nuceni konstatovat, že tato „přední“ výslovnost se vyskytuje (1) před měkkými souhláskami a (b) před „glidem“ [j]. Takové disjunkce nedodávají jednoduchosti a úspornosti formulování distribučních omezení, jak na to správně upozorňuje i Householder (srov. o. c. v pozn. 11). Sám pojem hlásky, která není ani vokálem, ani konsonantem, zdá se být v rozporu s jedním z axiomatických názorů fonetiky a klasické fonologie, že podle první — a zdá se univerzální dichotomie — dělí se všechny hlásky na vokály a konsonanty. Nemůže být námitek proti vyčlenění třídy hlásek, které mohou být jak vokály, tak konsonanty (anebo lépe řečeno: mohou fungovat jako slabičné i neslabičné). Ale jak třeba interpretovat třídu „glidů“, které nepatří ani k vokálům, ani ke konsonantům, a tedy se nezařazují do základní dichotomie všech hlásek?

Podle formulace Jakobsona - Halleho (cit. Fundamentals, s. 29) se první rys vokaličnost/nevokaličnost po stránce akustické definuje takto:

(I) „Přítomnost proti nepřítomnosti ostře vyhraněné formantové struktury.“

Formulace „ostře vyhraněná formantová struktura“ není dost přesná. I zde by bylo třeba žádat kvantitativní údaje, avšak v tomto případě je dosti obtížné je stanovit. V každém případě pozorujeme v slovenštině dosti jasnou formantovou strukturu nejen u krátkých a dlouhých samohlásek, ale i u likvid [r l ľ], u nosovek [m n ň η], u znělé frikativy [h] a za určitých příznivých podmínek i u znělé frikativy [v] a u [j] (obr. 1—3). Znamená to, že tyto hlásky, které by každý automatický „fonémový detektor“ nutně vyčlenil na základě rysu (I), tvoří v slovenštině „přirozenou třídu“?

Ve své analýze německého fonologického systému řadí M. Halle k sonorám pouze likvidy [r, l]. Nosovky mají podle něho v němčině rysy [— vok] a [+ kons].[16] Naproti tomu německý fonetik G. Heike považuje německé nosovky za sonory s rysy (+ vok) a (+ kons),[17] a to právě na základě přítom[198]nosti formantové struktury. Jak lze vysvětlit takové protichůdné hodnocení vskutku objektivně zjistitelných fyzikálních vlastností jednotlivých segmentů signálu?

 

Obr. 1

 

Obr. 2

 

Obr. 3

 

Druhý příznak konsonantičnost / nekonsonantičnost se definuje takto:

(II) „Nízká proti vysoké celkové energii“ (cit. Fundamentals, s. 29).

Ani tato formulace není bez udání kvantitativních parametrů příliš přesná. Je např. známo, že celková intenzita neznělých frikativ a afrikát [s š c č] často přesahuje na sonagrafických záznamech intenzitu vokálů (obr. 4). Při formulování rysu (II) se zřejmě nepřihlíželo k poměrům v takových jazycích, [199]které mají slabičné [r l]. Ze sonagrafického záznamu slabičného [l] v slovenštině jednoznačně vyplývá, že [l] má tutéž „vysokou“ celkovou intenzitu jako kterýkoli vokál (obr. 4). Jestliže [l] má podle rysu (I) ostře vyhraněnou for-

 

Obr. 4

 

mantovou strukturu a podle rysu (II) dosahuje v slabičném postavení intenzity hlásek [i e ä a o u], znamenalo by to, že automatické zařízení by muselo slabičné [l] zařadit jednoznačně do třídy hlásek s rysy (+ vok) a (— kons). Slabičné [l] by potom bylo „vokálem“. Kdybychom toto zjištění domysleli do konce, museli bychom interpretovat neslabičné [l] jako „neslabičnou variantu vokálu [l]“. Z artikulační fonetiky víme, že [l] v slově [vlak] se tvoří stejnými artikulačními pohyby jako [l] ve slově [vlk]. Z distribuční analýzy dále víme, že se slabičné [l] vyskytuje právě v těch pozicích, v kterých se nevyskytuje neslabičné [l]. Nikdo z fonologů dosud nepochyboval o tom, že ve slovech [vlak] a [vlk] máme co činit s dvěma variantami (alofony) jednoho fonému. Ale jaké by byly invariantní rysy těchto dvou variant? Neslabičné [l] má nižší celkovou energii a je proto [+ kons]. Má však zřetelnou formantovou strukturu a řadí se proto do třídy hlásek s rysem [+ vok]. Slabičné [l] má tedy jednoznačně rysy [+ vok] a [+ kons]. Invariantou může být tedy jen rys, který je společný jak neslabičnému, tak i slabičnému [l]; tento rys je [+ vok]. I touto cestou docházíme k překvapivému zjištění, že hláska [l] v slově [vlak] by se musela považovat za „neslabičnou variantu vokalického fonému [l]“.

Je však třeba zdůraznit, že přináležitost hlásky [l] ke třídě vokalických nebo konsonantických hlásek jsme nezjistili jen na základě pozorování a měření akustického signálu. Žádný sonagram nám totiž nepoví, zda zkoumaná hláska je vokál nebo konsonant, či zda je slabičná nebo neslabičná. Slabičnost není fyzikální, ale distribuční (funkční) vlastností hlásky. Proto i pojmy jako vokál, slabika, slabičnost nemají v signálu své koreláty.

Ve svých novějších publikacích M. Halle už neoperuje s akustickými rysy, na jejichž základě vyčleňuje třídy hlásek. V cit. knize Sound pattern of Russian (s. 118) definuje třídu „vokálů“, kterou předtím vyčlenil na základě jiných než čistě akustických kritérií takto: „(1) Všechny samohlásky mají formantovou strukturu. (2) Vyšší formanty jsou u vokálů méně zeslabeny než u jiných fonémů s formantovou strukturou.“

[200]Může to platit pro ruštinu, ale autoři teorie distinktivních rysů si činí nárok na univerzálnost a stále zdůrazňují, že jejich klasifikační rámec platí pro všechny jazyky světa. Pro jazyky, jako je čeština nebo slovenština, zřejmě neplatí rys uvedený u Halleho jako (2): slabičné [l] má formantovou strukturu, která se neliší od F-struktury vokálů. O žádném zeslabení vyšších formantů u [l] nemůže být ani řeči (srov. sonagramy [vlak] a [slza]). Vidíme, že i v tomto případě mají akustické parametry stanovené autory teorie akustických distinktivních rysů jen omezenou platnost.

V počáteční etapě rozvoje hypotézy o akustických distinktivních rysech se celý problém jevil ve velmi optimistickém světle: stačí se podívat na sonagram a už je možno přímým pozorováním zjistit jednotlivé vlastnosti hlásky. Tento optimismus se však neudržel dlouho. Pozoruhodné práce vycházející z Haskinsových laboratoří v New Yorku teorie distinktivních rysů si vůbec nevšímaly. Pracovníkům této skupiny šlo o zjištění korelací mezi akustickými vlastnostmi signálu a percepcí hlásek. Ukázalo se, že člověk je schopen identifikovat vokály jen na základě dvou prvních formantů F1 a F2, zatímco v teorii distinktivních rysů se zpočátku počítalo se třemi prvními formanty. Pojmy difúznost, kompaktnost, akutovost vokálů byly původně stanoveny na základě proporcí F3/F1, F3/F2, F2/F1.[18] I sami autoři distinktivních rysů měnili kritéria. Pozoruhodná je volnost, s jakou si jednotliví autoři vybírají pro určení akustických vlastností hlásek („fonémů“) právě tu sadu rysů, která se jim „hodí“. Porovnejme souhrn distinktivních rysů, s nimiž operují jednotliví autoři známých fonologických prací:

Fundamentals 1956

Halle 1959

Kučera 1961[19]

Heike 1961

vok

vok

vok

vok

kons

kons

kons

kons

nazál

nazál

nazál

nazál

kompakt

kompakt

kompakt

kompakt/difúz

zněl

zněl

zněl

— —

— —

difúz

difúz

— —

drsnost (strident)

drsnost

drsnost

ostrý

napjat (tense)

— —

— —

napjat

— —

trv

trv

— —

zaražený (checked)

— —

— —

— —

gravis/akut

nízká ton

gravis

temný/světlý

— —

zaostřen

— —

— —

— —

— —

akut

nízký/nenízký

plochý (flat)

— —

— —

— —

ostrý

— —

— —

— —

— —

přízvučný

— —

— —

— —

— —

dlouhý

— —

— —

— —

sylabický

— —

Některé rozdíly vyplývají zřejmě z toho, že ve Fundamentals je určen univerzální rámec popisu jazyků podle distinktivních rysů, kdežto v ostatních pracích jde o popisy konkrétních jazyků. Je např. jasné, že rys zaostře[201]nosti (palatelizovanosti) se vyskytuje v ruštině, nikoli však v češtině nebo němčině, a že se v němčině nevyskytuje rys znělosti. Zaráží však volná manipulace s takovými rysy jako gravis (nízká tonalita) a akut, přičemž akutovost se objevuje jen u Kučery. Rys kompaktnost/difúznost (Fundamentals) se u Halleho a Kučery nahrazuje dvěma rysy: komp / nekomp a difúz / nedifúz.

Povšimnutí hodné jsou také rozdíly v hodnocení akustických rysů jedné hlásky u různých autorů. Hláska („foném“) [s] se určuje u Halleho, Kučery a Heikeho takto:

Halle 1959

Kučera 1961

Heike 1961

— vok

— vok

— vok

+ kons

+ kons

+ kons

— komp

— komp

+ komp (sic!)

— nízká ton

— gravis

— —

+ drsnost

0 drsnost

+ ostrost

+ trv

+ trv

— abrupt

— zněl

— zněl

— —

— zaostř

— —

— —

Jestliže se rys „drsnost“ (stridency) určuje jako přítomnost „šumu vyšší intenzity“ (Fundamentals, s. 31), pak tento rys by měl být zjistitelný v každém [s], protože akusticky se ruské, české a německé [s] neliší.[20] Je však možno pochopit, že Kučera pokládá tento (objektivní) rys pro češtinu za nerelevantní. Jak lze však vysvětlit, že u Halleho a Kučery je [s] klasifikováno jako [— kompakt], kdežto u Heikeho „totéž“ [s] má rys [+ kompakt]? Vždyť kompaktnost má být čistě akustickým rysem, který musí být objektivně zjistitelný v signálu. Kdo z uvedených autorů má pravdu? Jakým akustickým vlastnostem odpovídají rysy [+ kompakt] a [— kompakt] u „téže“ hlásky [s]?

Všimněme si, že jediný Kučera zavádí ve svém popisu rys slabičnosti. Je to lingvisticky naprosto opodstatněné, ale nemá to žádný korelát v akustickém signálu.

Dále je hodno povšimnutí, že týž rys je u jednoho autora při popisu různých jazyků korelován s velmi rozličnými akustickými vlastnostmi. M. Halle zjišťuje,[21] že anglické fonémy [s z š ž č dž] tvoří jednu „přirozenou třídu“, a to na základě rysu drsnosti (stridency). Tuto „přirozenou třídu“ zřejmě potřebuje na to, aby ukázal, že podmínky volby plurálové koncovky [iz] v angličtině se dají jednoduše přeformulovat, když řekneme, že [iz] stojí vždy po „drsných“ (strident) konsonantech; srov. classes, houses, bushes, churches, bridges. Rys drsnosti dovoluje Hallemu odlišit sykavky a afrikáty od labiodentálních a „interdentálních“ frikativ [f v Ѳ δ], které prý tento rys v angličtině nemají. Ve svém popise ruské fonologie však týž autor řadí do třídy „drsných“ hlásky („fonémy“) [c s z s z] a [f v f, v], zatímco hlásky („fonémy“) [č š ž] v jeho [202]schématu ruštiny mezi „drsné“ zařazeny nejsou. Opakujeme: akustickým korelátem rysu drsnosti je podle cit. Fundamentals, přítomnost šumu „vyšší intenzity“. Je vůbec možné, že ruské [f v] mají vyšší šumovou intenzitu, kdežto „tytéž“ anglické [f v] ji nemají a naopak: že anglické sykavky a afrikáty [č š ž] jsou „drsné“, kdežto „tytéž“ ruské hlásky [č š ž] „drsné“ nejsou? Když dodáme, že H. Kučera řadí mezi „drsné“ v češtině jen [č c ř], vynikne naprostá libovolnost při výběru toho nebo onoho rysu ještě plastičtěji. Vybírají se prostě rysy, které se hodí; vždyť v signálu je takových rysů mnoho. Jediným východiskem pro odvrácení možné kritiky je potom radikální změna teoretických pozic, jak ji pozorujeme v novějších pracích Chomského a Halleho:[22] distinktivní rysy nejsou rysy akustickými, ale „čistě klasifikačními“.

Tam, kde se ještě pracuje s fyzikálními vlastnostmi akustického signálu, navrhují se velmi složité a náročné procedury pro měření jednotlivých rysů. Na určení fyzikální podstaty rozlišování „kompaktních“ a „nekompaktních“ frikativ navrhuje Halle[23] tento postup:

(1) Zjistit vrchol spektra. Je-li vrchol v oblasti nad 6000 c/s a převyšuje-li všechna ostatní maxima aspoň o 4 decibely, jde o fonémy kompaktní. Je-li vrchol pod 6000 c/s, přejdi k bodu 2.

(2a) Je-li vrchol spektra mezi 2000 a 4000 c/s, měř intenzitu v pásmu 1000 c/s.

(2b) Je-li vrchol pod 2000 c/s, měř průměrnou intenzitu v oblasti mezi 2000 a 3000 c/s.

(2c) Je-li vrchol nad 4000 c/s, měř průměrnou intenzitu mezi 3000 a 4000 c/s.

(3) Měř průměrnou intenzitu mezi 500 a 1500 c/s. Je-li hláska znělá, odpočítej 10 decibelů.

(4) Odpočítej výsledky měření (3) od měření (2). Je-li rozdíl malý (mezi —2 a +13 decibely) foném je nekompaktní …“

Uvedli jsme per extenso tento pro lingvisty nepříliš srozumitelný úryvek proto, abychom ukázali, jak pracně zjišťuje Halle rys „kompaktnosti“ frikativ. Jde tu však ještě i o důležitou implikaci celého postupu. Zjištění distinktivního rysu „kompaktnosti“ vyžaduje aspoň 6 binárních rozhodnutí. Tím však tento rys přestává být „minimální jazykovou jednotkou“, za niž ho pokládají tvůrci teorie. Tento „atom“ se tu štěpí a rozpadá na další menší rysy: např. vrchol intenzity je nad určitou kritickou čarou nebo pod ní. Tím se ale ruší celá teorie distinktivních rysů v tom podání, jak ji známe z Preliminaries a z Fundamentals. K určení rysu „kompaktnosti“ je třeba aspoň 6 binárních rozhodnutí. Tím pochopitelně narůstá i počet rozhodování („rysů“) a ztrácí se přitažlivá jednoduchost klasifikace fonémů podle 12 rysů pro všechny jazyky světa. Je třeba dodat, že sám pojem kompaktnost je nanejvýš metaforický. Ve Fundamentals (s. 29) je určen takto: „vyšší koncentrace energie v relativně úzké, centrální oblasti spektra“. Viděli jsme, že u frikativ je kompaktnost podle Halleho dána koncentrací energie (vrcholem spektra) v oblasti nad 6000 c/s. To není „poměrně úzká a centrální oblast spektra“. Týž rys „kompaktnosti“ se aplikuje i na vokál [a], který má koncentraci energie v oblasti mezi 600 a 1200 c/s, tj. zase ne v centrální části spektra. Leží-li koncentrace energie při [x] a při [a] právě ve dvou okrajových oblastech spektra, [203]je otázka, proč zde máme mluvit o „kompaktnosti“ a zda je izomorfismus mezi akustickými rysy konsonantů a vokálů dostatečně podložen v signálu.

V literatuře jsou známy i velmi odlišné pokusy o klasifikaci frikativ.[24] Každý autor uvádí jiná kritéria. A zůstává otázkou, zda lidské ucho rozlišuje „kompaktní“ [x] od „nekompaktního“ nebo „difúzního“ [s] právě na základě náročné kvantitativní analýzy navržené M. Hallem.

Závěr může být jen jediný: Z nepřehledného množství akustické informace obsažené v řečovém signálu je možno vybrat si poměrně velký a dost různorodý počet „rysů“ a na základě takto vybraných příznaků montovat fonologický popis jazyka. Ve většině prací užívajících distinktivních rysů při fonematické analýze se aspoň implicitně vyvolává dojem, že daný fonematický popis vznikl jen na základě akustické analýzy řečového signálu. Skutečnost je ovšem jiná: autoři tohoto druhu fonologických prací už měli fonologický systém zkoumaného jazyka hotový, a to na základě distribuční analýzy textu. Tento fonematický systém byl až dodatečně interpretován v pojmech akustických rysů, které byly voleny víceméně ad hoc. Jedno musí být totiž jasné: není možné podat fonologický popis neznámého jazyka, tj. jazyka, ze kterého máme jen magnetofonové pásky, sonagrafické analýzy a oscilogramy. „Fonémy“ se na základě výlučně fyzikální charakteristiky segmentů určit nedají. Ve snaze „uzemnit“ výsledky fonologické analýzy a ve snaze korelovat fonémy s fyzikálními vlastnostmi signálu se každý autor uchyluje k takové sadě „rysů“, jaká se mu pro daný účel hodí.

Podle formulace autorů teorie distinktivních rysů platí akustické charakteristiky jen tehdy, „jsou-li hlásky náležitým způsobem normalizovány“ (if the sounds are properly normalized). Co to vlastně znamená? Není přece možné očekávat v souvislé řeči „normalizaci“ hlásek. Platí-li tedy distinktivní rysy jen pro idealizované („normalizované“) hlásky, vzniká otázka, na základě jakých jiných rysů identifikuje naše ucho nenormalizované hlásky v souvislé řeči. Nechybějí hlasy, které poukazují na nereálnost mnohých sonagramů uvedených v Preliminaries. Německý anglista a fonolog H. Pilch píše: „Někdy se člověk ptá, jakým způsobem autoři (Preliminaries) získali ve svých sonagrafických obrazech takové krásné a jednoznačné rozdíly. Rozlišování angl. [Ѳ] a angl. [s] na základě rysu „drsnosti“ nemůžeme rozeznat (wiedererkennen) na jiných sonagramech“.[25] Každý, kdo si chce ověřit sonagrafické údaje z Preliminaries, začíná velmi brzy buď závidět autorům jejich zázračné přístroje, nebo pochybovat o reálnosti jejich pokusů.

Na základě velmi neúplného rozboru některých zásad analýzy podle distinktivních rysů docházíme k některým ne příliš optimistickým závěrům:

(1) Celý dosavadní vývoj jazykovědy, vývoj písma a pozorování, jak si osvojují písmo děti a negramotní, nutí nás k předpokladu, že jazyková zpráva se skládá z konečného a poměrně malého počtu opakujících se diskrétních jednotek, které nazýváme fonémy.

[204](2) Fonémy jsou teoretické jednotky, abstrakce, konstrukty a mají jako takové reálnou ontologickou existenci. Je možno předpokládat, že na vstupové straně (u mluvícího) jsou fonémy zakódovány jako souhrn instrukcí, jako rozložený program všech artikulačních pohybů potřebných k dosažení určitého akustického obrazu.

(3) Jedinou fyzikální realitou, s kterou máme co činit v řečové komunikaci, je akustický signál. Musíme předpokládat, že řečový signál obsahuje fyzikální vlastnosti, které naše ucho vnímá a které slouží jako „nápovědi“ (cues) pro identifikaci fonémů. Je pravděpodobné, že se tyto nápovědi interpretují jako artikulační instrukce, tj. že se celkový akustický obraz „překládá“ do artikulačních dimenzí. Při poslouchání signálu člověk nedělá hned jednoznačné a definitivní rozhodnutí o fonematické interpretaci signálu (Koževnikov-Čistovičová, o. c. v pozn. 4, s. 212). Je třeba předpokládat, že se dělají jen aproximace. Podstata této metody aproximace, která vede nakonec k rozložení signálu na diskrétní jednotky a k dekódování zprávy, je dnes už známa.

(4) Fonémy nejsou reprezentovány v akustickém proudu bezprostředně. Akustický signál tvoří kontinuum. V důsledku koartikulace se jednotlivé segmenty překrývají, takže každý časový segment signálu nese informaci aspoň o jednom fonému, ale často obsahuje informaci současně o dvou sousedících fonémech (fenomén „přechodů“, transicií).

(5) Nepodařilo se určit fonematický inventář některého jazyka pouze na základě analýzy fyzikálních vlastností zvukové vlny řečového signálu. To znamená, že vztah mezi fonematickou a akustickou rovinou není vzájemně jednoznačný.[26]

(6) Těžiště současného bádání v oblasti fonologie se stále více přesouvá do oblasti teorie percepce řeči a psychoakustiky. Velmi slibné jsou pokusy se syntetizovaným řečovým signálem, kde badatel může izolovat a nezávisle od sebe odlišit různé akustické parametry. Takové práce začaly i u nás[27] a dosáhly pozoruhodných výsledků.

(7) Jen pokusy se syntetickou řečí nám pomohou odhalit z nepřehledného množství akustické informace, kterou obsahuje řečový signál, ty prvky nebo „nápovědi“, které umožní identifikaci fonémů.

(8) Hlavním nedostatkem dosavadní akustické fonetiky založené na fonematické teorii je nedostatečné rozlišování pojmů. Fonémy totiž nemají ani formanty, ani intenzitu, ani rozlohu v čase. Fonémy nejsou vůbec měřitelné. Takové vlastnosti, jako „nízká tonalita“ nebo „nosovost“, mají segmenty signálu, ne však fonémy. Je otázka, zda právě těchto vlastností užívá člověk při rozeznávání fonémů. Neúspěchy v oblasti automatické detekce svědčí spíše o tom, že nikoli.

(9) Nicméně je pokrok v naší vědě pozoruhodný a slibný. O akustické podstatě signálu, ale i o artikulačních dimenzích víme dnes nepoměrně víc než před dvaceti lety. Ale komunikační řetěz od artikulace přes akustický signál [205]k percepci není uzavřen. Aby inženýři mohli zkonstruovat automatický „fonémový detektor“, musí mít především spolehlivou teorii fonémů. Tato teorie bude pravděpodobně vycházet z poznatků získaných při analýze percepce řečového signálu.

 

R É S U M É

Das Phonem und sein Korrelat im akustischen Signal

Die Theorie der distinktiven (akustischen) Merkmale beruht auf der Annahme, dass jedes Segment der Schallwelle akustische Eigenschaften besitzt, die es ermöglichen, dieses Segment einem Phonem zuzuordnen. Aufgrund akustischer Analysen des Slovakischen wird gezeigt, dass die im Schema von Jakobson-Halle angeführten Schallmerkmale keine eindeutige Klassifizierung der Segmente zulassen. Verf. kritisiert die willkürliche Handhabung der Schallmerkmale bei verschiedenen Autoren sowie die Verwendung solcher Bezeichnungen wie „diffus“, „kompakt“, „gravis“ usw. ohne genaue Angabe der entsprechenden Parameter in physikalischen Termen. Verf. erwartet von der motorischen Theorie der Perzeption einen wesentlichen Fortschritt vor allem auf dem Gebiete der automatischen Erkennung von Sprachschallmerkmalen.


[1] Na tento vývoj k akustice upozorňuje SaS již od roč. 19, 1958, s. 265; K. Stevens a House, Development of a quantitative description of vowel articulation, JASA 27, 1955, 484—493; G. Fant, Acoustic theory of speech production, Mouton 1960.

[2] G. Fant, Acoustic theory …, s. 115—116.

[3] Speech recognition: A model and program of research, IRE Transactions on information theory 1962, 155—159.

[4] V. A. Koževnikov - L. A. Čistovič, Reč, artikuľacija i vosprijatije, Moskva - Leningrad 1965.

[5] Takový stroj (Automatic digit recognizer) byl předveden na fonetickém kongresu v Tokiu v srpnu 1965; zkonstruovala jej firma The Nippon Electric Corporation.

[6] Preliminaries to speech analysis. The distinctive features and their correlates, M. I. T. Acoust. Lab. Techn. Report 13, 1952.

[7] Mezitím jeden z autorů Preliminaries, M. Halle, ustoupil od takového rigorózního omezení. V novější publikaci píše o distinktivních rysech: „… zdá se, že jich bude okolo 15“, On the bases of phonology, Suppl. to Il Nuovo Cimento 13, Series X, 1958, 494—517. Srov. The structure of language, J. A. Fodor and J. J. Katz ed., Englewood Cliffs, N. Y. 1964, 326n.

[8] R. Jakobson - M. Halle, cit. Fundamentals, s. 45. — Srov. Vachkovu recenzi v SaS 19, 1958, 53—56.

[9] Sám pojem relevantnosti ve fonologii není bez rozporů: za relevantní rys protikladu [s] a [z] v schématu Jakobsona - Halleho pokládá se v slovanských jazycích rys „znělosti/neznělosti“. Když se však za zvláštních podmínek (např. při šeptání) nemůže znělost realizovat, je tento relevantní rys nahrazen „redundantním“ rysem větší/menší intenzity, neboť víme, že i při šeptání se jednoznačně rozeznávají slova [kosa] a [koza], [koša] a [koža], [prát] a [brát]. Východisko z této nedůslednosti hledá B. Malmberg v tom, že rozlišuje rysy „relevantní“, „irelevantní“ a „redundantní“.

[10] The Sound Pattern of Russian, Mouton 1959.

[11] V polemice s N. Chomským a M. Hallem ironizuje F. W. Householder tuto zásadu „jednoduchosti“ a píše: „… za maximálně jednoduché je to všechno možno pokládat jen v pickwickovském smyslu“ (On some recent claims in phonological theory, Journal of Linguistics 1, 1965, 13—34). Viz však repliku Chomského a Halleho (Some contraversial question in phonological theory, o. c., s. 97—138).

[12] G. Fant, Acoustic theory …, s. 208.

[13] Language 33, 1957, 408—415.

[14] S. K. Šaumjan, Sistema glasnych fonem sovremennogo poľskogo literaturnogo jazyka, Uč. zapiski In-ta slavjanovedenija III, 1951.

[15] M. Romportl, Zvukový rozbor ruštiny, Praha 1962, s. 118—119.

[16] M. Halle, The strategy of phonemics, Word 10, 1954, 197—209.

[17] G. Heike, Das phonologische System des Deutschen als binäres Distinktionssystem, Phonetika 6, 1961, 162—176.

[18] A. V. Isačenko, Hat sich die Phonologie überlebt, ZfPh 9, 1956, 311—330.

[19] H. Kučera, The Phonology of Czech, Mouton 1961.

[20] Autor má k dispozici rozsáhlý sonagrafický materiál ze všech uvedených jazyků. Na sonagramech není možno rozeznat charakteristický šum ruského, českého a německého [s] podle větší nebo menší intenzity šumu.

[21] M. Halle, o. c. v pozn. 7.

[22] N. Chomsky - M. Halle, Some contraversial questions in phonological theory, Journal of Linguistics 1, 1965, 97—138.

[23] M. Halle, o. c. v pozn. 10, s. 133—134.

[24] G. Fant, Acoustic theory; M. Romportl, o. c. v pozn. 15; W. Jassem, The distinctive features of Polish phonemes, Speech Transmission Lab., Quaterly progress and status report, Stockholm 1962, 1, s. 7—15.

[25] H. Pilch, Phonemtheorie, Bibliotheca Phonetica, fasc. 1, Basel-New York 1964, s. 50.

[26] M. Halle, Speech sounds and sequences, Fourth International Congress of Phonetic Sciences, Helsinki 1961.

[27] P. Janota, Zur Wahrnehmung synthetischer tschechischer Vokale, Zeitschrift für Phonetik, Sprachwiss. und Kommunikationsforschung 17, 1964, 235—241.

Slovo a slovesnost, ročník 27 (1966), číslo 3, s. 193-205

Předchozí Československé kolokvium o fonologii a fonetice ve Smolenicích r. 1965

Následující Oldřich Leška: K Šaumjanově definici fonému