Časopis Slovo a slovesnost
en cz

Kvantitativní rozbor současných jazyků, zvl. americké angličtiny

Marie Těšitelová

[Rozhledy]

(pdf)

Количественный анализ современных языков, в частности английского языка в Америке / Analyse quantitative des langues modernes, notamment de l’américain

Frekvenční slovníky představují vzhledem k své praktické i teoretické užitečnosti pro lingvistiku, jazykovou pedagogiku, ale i jiné disciplíny, v posledních letech i technické, rostoucí řadu, k níž sice v nepravidelných intervalech, ale stále přibývají nové členy. Vyvolávají je v život jednak požadavky rozvíjející se lingvistiky vůbec, a kvantitativní zvláště, jednak zvyšující se možnosti techniky, která se při jejich přípravě nabízí k využití. Lingvistika, resp. kvantitativní lingvistika se tu již dávno nespokojuje jen s kvantitativními údaji o lexikálních jednotkách, popř. o tvarech slov, které si zpravidla pod pojmem frekvenční slovník představíme,[1] ale žádá další kvantitativní charakteristiky lexikální, ale i gramatické a doplnění [188]o kritéria stylistická.[2] Požadavek přihlížet k sémantické stránce lexikálních jednotek pojatých do kvantitativního studia zůstává přes významný pokus staršího data[3] stále nesplněn, zvláště proto, že sémantika — jak známo — nevyřešila řadu svých základních problémů, a proto za této situace je aplikace kvantitativních metod v oblasti sémantiky dvojnásob nesnadná. Připomeňme tu jen značně vágní pojem významu a nejednotu v jeho chápání a tím i problematické podmínky pro jeho měření apod. Pokud jde o techniku, které možno při přípravě frekvenčních slovníků s prospěchem využít, znamenají tu významné zrychlení a zdokonalení prací samočinné počítače. Hlavní jejich přínos v této oblasti lze spatřovat v tom, že umožňují zejména zvládnout v relativně krátké době kvantitativní analýzu speciálně vymezených etap jazykového vývoje a zvýšit počet kvantitativních údajů o analyzovaných jazykových jednotkách a přispět nejen k analýze většího počtu textů, ale i k zhodnocení získaného materiálu.

Zvýšenými nároky lingvistickými a využitím moderní techniky vyznačuje se i řada frekvenčních slovníků románských jazyků, kterou připravuje známé holandské nakladatelství Mouton. O frekvenčním slovníku španělštiny Al. Juillanda a E. Chang-Rodrigueze Frequency Dictionary of Spanish Word (Hague 1964) jsme již referovali;[4] v zásadě podle téže koncepce a touž technikou je zpracován i frekvenční slovník rumunštiny: Al. Juilland—P. M. Edwards—I. Juilland, Frequency of Rumanian Word (Hague 1965, 513 s.).[5] Autoři tu zachovali — ve srovnání se slovníkem španělštiny — rozsah materiálu (500.000 slov získaných z více než 20.000 vět) i 5 stylových žánrů (dramata, beletrie, essayistika, periodika a technická literatura); na rozdíl od španělského slovníku, jehož texty pocházejí z let 1920—1940, jak je ostatně stanoveno pro všechny románské slovníky, bylo nutno — podle autorů zejména vzhledem k nedostatku vhodné rumunské literatury v zahraničí — posunout dolní časovou hranici vydání textů až k r. 1890. Právě tento výběr textů je nejvíce kritizován ze strany rumunských lingvistů, kteří připravují v Bukurešti nový frekvenční slovník rumunštiny.[6] Mnohem větší nedostatek bych spatřovala v tom, že se tím znemožňuje srovnávání s ostatními jednotlivými jazyky románskými, které výše zmíněná série frekvenčních slovníků sleduje a které by mělo jedinečný význam především pro typologii slovníku románských jazyků, ale i pro gramatiku a stylistiku těchto jazyků.[7] Takový cíl předpokládá ovšem jednotné řešení základních otázek, jakými jsou jednotka výběru, rozsah materiálu a způsob výběru, a pak důsledné dodržení zásad pro jejich řešení. V daném případě např. rámec věty nepokládám vzhledem k výběru textů o srovnatelné délce za vhodný, především pro jeho pohyblivost v závislosti na stylu.[8] Je škoda, [189]že se nejednotným nebo nedůsledným způsobem řešení základních otázek znehodnocují výsledky dosažené analýzou a mimo jiné zejména jejich hodnocení ve vzájemné kombinaci jinak velmi prospěšného koeficientu užití (U), frekvence (F) a rozptýlení (D), srov. o. c. v pozn. 4 a 5. — Pokud jde o myšlenku pořídit na srovnatelné bázi frekvenční slovníky příbuzných jazyků, bylo by velice užitečné, kdybychom takovou řadu měli brzy i pro jazyky slovanské.

Zvýšeným požadavkům lingvistickým za přispění samočinných počítačů snaží se vyhovět i nový frekvenční slovník americké angličtiny, jak se konečně obráží i v jeho názvu Computational Analysis of Present-Day American English.[9]

V titulu se právem mluví o analýze materiálu (korpusu), neboť frekvenční slovník je pouze jeho součástí,[10] i když ovšem částí podstatnou, jak to ostatně vyplývá ze základní koncepce všech analogických prací: A tak po úvodu (s. XVII—XXV) následuje slovník (s. 3—271), skládající se ze seznamu slov uspořádaných podle klesající frekvence (s. 5—137) a ze seznamu abecedního (s. 138—271). Druhou významnou součástí práce je část nazvaná analýza korpusu (s. 275—424), obsahující analýzu týkající se distribuce frekvence slov v daném korpusu (s. 275—362), délky slova (s. 363—367) spolu s dvěma výše zmíněnými studiemi, o délce vět a o logaritmickonormálním modelu distribuce frekvence slov. Všechny uvedené výsledky se dokládají velkým počtem tabulek a grafů. Je třeba ocenit, že mezi všemi dosavadními pracemi zabývajícími se lexikální analýzou nějakého jazyka přináší recenzovaná práce v relativně velké míře i zpracování nashromážděného materiálu. Domnívám se, že by to mělo být postulátem pro všechny budoucí práce v této oblasti. Je to důležité i proto, že u tak velkých děl nelze zpravidla publikovat celý materiál, o nějž se opírají a který má ve větší nebo menší míře charakter jakéhosi polotovaru. Tak např. ani v recenzované práci nebylo možno pro nedostatek místa publikovat index, který byl k celému korpusu sestaven a který obsahuje údaje o lokaci, velmi cenné pro konstrukci kontextu.

Materiál, který je základem práce, představuje 1,014.232 slov (resp. tvarů slov, v Herdanově terminologii tokens),[11] které byly získány z 5000 textů (resp. výběrů) přibližně po 2000 slov. Jednotlivé texty jsou seskupeny do 15 kategorií (označených A—R), reprezentujících různou tematiku i různé styly. Např. žurnalistika je tu na prvém místě a je rozdělena v podstatě do tří kategorií s nestejnou proporcionalitou, a to reportáže (44 textů), úvodníky (27 textů), recenze (17 textů), dále zvláštní kategorii tvoří např. literatura náboženská (18 textů), literatura vědecká (80 textů); do několika skupin je rozdělena i románová literatura, obsahující kromě románů i detektivky, science-fiction, westerny apod. Toto pronikání tematických a stylových kategorií při výběru textů má v pracích týkajících se frekvence slov v angličtině svou tradici,[12] jeho propracování a rozřazení do kvantifikovaných kategorií je však třeba hodnotit jako významný přínos recenzované práce. Problém ovšem je, jak byla stanovena proporcionalita jednotlivých tematických a stylových kategorií, dále podrobnosti týkající se jejich výběru, délky apod. Je totiž škoda, že tyto údaje jsou podle autorů obsaženy ve zvláštní příručce (Manuel of Information, Brown University 1946), kterou bohužel nemáme k dispozici. Domnívám se však, že bližší údaje o tak základních problémech by neměly chybět v práci samé. Tak by bylo [190]možno lépe posoudit, proč se autoři rozhodli pro relativně malý rozsah ukázek (2000 slov) i jakým způsobem byl výběr prováděn. Za dané situace je třeba se souhlasem uvítat, že se tu pracuje v podstatě s výběry mechanickými, tj. omezenými, souvislými úseky textů, které mají přibližně stejný rozsah, čímž je zaručena maximální srovnatelnost daných úseků. Není však dost jasné, jak byly u větších pramenů pořizovány náhodné výběry apod.

Zvláštní zmínky si zaslouží fakt, že se autorům podařilo pojmout do korpusu texty, které byly publikovány v Americe v l. 1963—1964, takže lze skutečně mluvit o současné americké angličtině. Tuto nesporně dosud nedosaženou přednost lze přičíst tomu, že ke zpracování materiálu bylo použito několika samočinných počítačů, zejména IBM 7070. Počítač sám např. vybíral slova z textů; jako slovo počítá se celkem ve shodě s dosavadní praxí v této oblasti grafická jednotka (písmeno nebo skupina písmen mezi dvěma mezerami); zřejmě vzhledem k automatické analýze textu berou se v úvahu i interpunkční znaménka, a proto se např. jako jiná jednotka počítá slovo, za nímž následuje čárka, než totéž slovo, za nímž čárka nenásleduje, apod. Jako jednotky v textu počítají se i číslice, dále symboly, formule, zkratky apod. Kromě toho se nerozlišují homografy, zaznamenávají se samostatně varianty fonologické, morfologické, syntaktické a lexikální. Toto pojetí statistické jednotky považuji pro lingvistickou analýzu za velkou slabinu práce. Z hlediska lingvistického je to podle mého názoru příliš velký ústupek technice práce, z hlediska statistického pak to znamená značné zkreslení údajů o frekvenci slov a o její distribuci, i když se to týká jednotek relativně málo frekventovaných (srov. zvl. s. 132—137). Nedostatkem je tu i míšení jednotek lexikálních s tvary slov, do jisté míry podmíněné i chudou morfologií angličtiny.

V seznamech slov jsou jednotky (v podstatě tvary slov, tokens) charakterizovány třemi údaji: (1) absolutní frekvencí slova v korpusu, (2) počtem žánrů (tedy 1—15) a (3) počtem výběrů v korpusu (tedy 1—500). Je nápadné, jaká je tu shoda s praxí českého frekvenčního slovníku (o. c. v pozn. 2), ačkoli se autoři o jeho existenci nezmiňují. Lze předpokládat, že výše zmíněná příručka o přípravě práce obsahuje i příslušnou literaturu (jinak údaje o ní jsou v recenzované práci opravdu minimální, což je rovněž nedostatkem jinak zajímavé a záslužné práce). I na jiných místech lze konstatovat shody s frekvenčním slovníkem češtiny ve způsobu uvádění výsledků analýzy. Jde např. o tabulku A1 (distribuce frekvence u 100 nejfrekventovanějších lexémů, types), kde jsou uváděny absolutní frekvence v rámci jednotlivých tematicko-stylistických kategorií (v českém frekvenčním slovníku u všech jednotek abecedního seznamu). Navíc jsou tu ovšem s prospěchem udávány i frekvence teoretické a jejich rozdíly hodnoceny testem χ2.

V oddíle zpracování výsledků věnuje se velká pozornost zejména frekvenci slov a její distribuci, která je tu reprezentována v řadě tabulek a grafů, které přinášejí jednak data týkající se celého korpusu, jednak data pro různé podmnožiny korpusu, vytvářené seskupováním výběrů, a to v podmnožiny tzv. reprezentativní, sestavené proporcionálně od 5 až do 125 výběrů, a tzv. nereprezentativní (o 50 výběrech z co nejmenšího počtu tematicko-stylových skupin). Jednotlivé jednotky (tvary slov i lexémy) jsou charakterizovány údaji o frekvenci absolutní, kumulativní a relativní, na konci každé tabulky se uvádějí mimo jiné průměr, směrodatná odchylka, koeficient variace a tzv. Yulova konstanta K. Příslušné konkrétní jednotky (slova) je třeba podle hodnoty absolutní frekvence hledat v první části knihy (v seznamu uspořádaném podle klesající frekvence), což do značné míry znesnadňuje práci s tabulkami. To je tím více komplikované, čím více slov má tutéž frekvenci. Nutno ovšem připustit, že daný způsob záznamu znamená značnou úsporu místa. — Jinak jsou údaje o distribuci slov velmi užitečné a zasloužily by si další analýzy a interpretace.

[191]Velmi blízko má k této problematice i zmíněná již poslední stať J. B. Carrolla, v níž se autor pokusil hledat metodu k určení parametrů teoretického souboru, aby bylo možno získat adekvátní charakteristiky výběru. Autor aplikoval logaritmickonormální rozdělení na frekvenci slov a ukázal, že toto rozdělení předpokládá konečný počet lexikálních jednotek (types) a že v konečných výběrech existují systematické odchylky od logaritmickonormálního rozdělení. Mnoho dílčích problémů je tu ovšem otevřených, jak také autor sám připouští.

Zvláštní pozornost byla věnována ve dvou zbývajících statích délce slov a vět. Délka slova je udávána počtem grafických komponentů, a to odděleně pro jednotky lexikální (types) a tvary slov (tokens). Délka věty se řídí počtem grafických jednotek, jinak věta sama je identifikována podle interpunkčních znamének; výsledky charakterizují délku věty jednak v celém korpusu, jednak v jednotlivých žánrech (A—R) a jsou hodnoceny testem χ2. Jsou však do značné míry zkresleny tím, že tu byla značná nejednota v počítání grafických znaků, formulí (viz i výše) aj., které se ne vždy důsledně pojímaly do počtu. Stať se pokusila nově dokázat, nakolik je délka věty důležitá pro kvantitativní popis různých žánrů. Podle délky věty se všechny žánry užité v recenzované práci dělí do dvou skupin: texty patřící (I) do tzv. informativní prózy (informative prose) a (II) do tzv. tvůrčí prózy (imaginative prose). Obě skupiny jsou pak podrobeny stylové analýze. Rozmanitost délky věty se měří tzv. Yulovou konstantou K, určenou původně k hodnocení frekvence slov, což pokládám vzhledem k problematickému stanovení délky věty za sporné. Pozornost je věnována i homogenitě v distribuci délky vět, která rovněž přispívá k delimitaci mezi výše zmíněnými dvěma skupinami prózy. Jinak stať o délce věty považuji za velmi dobrou ukázku interpretace výsledků kvantitativní analýzy textů.

Přes uvedené výhrady a připomínky pokládám práci Computational Analysis of Present-Day American English za významný krok vpřed v oblasti kvantitativní lingvistiky. Autoři tu přispěli k propracování některých základních otázek týkajících se vlastního korpusu. S pomocí moderní techniky se jim podařilo včas publikovat značnou část dosažených výsledků a některé podle možnosti i interpretovat. I přes všechno jejich úsilí je tu stále otevřená řada problémů, které je třeba řešit nejen obecně, nýbrž i se zřetelem ke speciálním strukturám jednotlivých typologicky odlišných jazyků, ale i s aspektem srovnávacím.


[1] Srov. např. slovníky Thorndikovy The Teacher’s Word Book, New York 1921, A Teacher’s Word Book of Twenty Thousand Words, New York 1931—1932; G. E. Vander Beke, French Word Book, New York 1930, aj.

[2] Se zřetelem k těmto požadavkům mají zvláštní postavení zejm. tyto práce: H. H. Josselson, The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian, Detroit 1953; J. Jelínek—J. V. Bečka—M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961.

[3] Srov. M. West, A General Service List of English Words with Semantic Frequencies and a Supplementary Word-List for the Writing of Popular Science and Technology, London 1953.

[5] Srov. recenzi slovníku španělského i rumunského od polské matematičky J. Samborové v čas. Kwartalnik Neofilologiczny 15, 1968, 431—436.

[6] Srov. I. Coteanu, Pentru un dicţionar de frecvenţă al lîmbii române, Lîmba română 15, 1966, 339—340.

[7] Srov. např. M. Těšitelová, K typologii slovanského slovníku z hlediska kvantitativního (na českém materiálu), Čs. přednášky pro VI. mezinár. sjezd slavistů v Praze 1968, s. 95—99.

[8] Srov. už G. U. Yule, On Sentence Length as a Statistical Characteristic of Style in Prose: With Application of Two Cases of Disputed Authorship, Biometrika 30, 1939, 363—390. Srov. i zde s. 191.

[9] Autory jsou Henry Kučera a W. Nelson Francis, vyd. Brown University Press-Providence, Rhode Island 1967, 427 s. K práci jsou připojeny studie zpracovávající některé výsledky, a to M. L. Marckworth a L. M. Bell, Sentence-Length Distribution in the Corpus, s. 368—405 a J. B. Carroll, On Sampling from a Lognormal Model of Word-Frequency Distribution, s. 406—424.

[10] Srov. ostatně i název a náplň české práce cit. v pozn. 2.

[11] Srov. G. Herdan, Type/Token Mathematics, Hague 1960.

[12] Srov. např. výběr materiálu pro slovníky Thorndikovy (o. c. v pozn. 1), popř. výběr materiálu pro slovník G Deweye Relativ Frequency of English Speech Sounds, Cambridge 1923.

Slovo a slovesnost, ročník 30 (1969), číslo 2, s. 187-191

Předchozí Alexandr Stich: Práce o stylu Nerudovy prózy

Následující Alois Jedlička, Karel Hausenblas: Z VI. mezinárodního sjezdu slavistů v Praze