Časopis Slovo a slovesnost
en cz

Pomoc počítačů při rozboru uměleckého stylu

Jiří Kraus

[Kronika]

(pdf)

Помощь вычислителей при анализе художественного стиля / L’aide des machines à calculer dans l’analyse du style littéraire

Sborník The Computer and Literary Style (Kent Studies in English Nr. 2, Kent, Ohio 1966, vyd. Jacob Leed, s. 179) obsahuje práce amerických i evropských lingvistů zdůrazňujících kvantitativní hledisko při zkoumání a rozboru uměleckých děl. Společným rysem všech studií je možnost pomocí samočinných počítačů řešit úlohy sporného autorství a určovat idiosynkratické stylové rysy díla. V úvodní, bibliograficky a informativně zaměřené stati (Sally Y. Sedelow a W. A. Sedelow Jr., A Preface to Computational Stylistics, 1—13) se autoři zamýšlejí nad pojmem strojové stylistiky (computational stylistics) jako exaktního zkoumání individuálních stylových vzorců. Za nejdůležitější stylistické proměnné považují formu (lexikální diskriminátory, prozodické, rýmové a syntaktické vlastnosti jazykových jednotek, např. rozložení grafémů, délky slova, délky věty ap.) a text jako lineární uspořádání sémantických jednotek (slov, metafor, stylových vrstev, slovních hnízd ap.). R. S. Wachal (On Using a Computer, 14—37) uvádí pro literární vědce a lingvisty základní informaci o možnosti zpracovávat hromadná data na počítači. Zabývá se zde logikou počítače, programovacími jazyky (především Fortranem, jehož užití je v USA nejvíce rozšířeno), kapacitou počítače na vstupu a výstupu, možnosti kódování jazykových dat a perspektivou strojové lingvistiky.

Článek I. S. Francise An Exposition of a Statistical Approach to the Federalist Dispute (38—78) metodologicky shrnuje spor o autorství tzv. federalistických listů signovaných značkou Publius, otištěných v l. 1787—8 s cílem přesvědčit obyvatele státu New York, aby hlasovali pro ústavu.[1] Autory 77 esejů byli J. Madison, A. Hamilton a J. Jay; jejich podíl na zpracování zůstal neznám.[2] Určení autorství [447]pomocí kvantitativních metod se opírá o postupnou analýzu několika jazykových plánů a nakonec se soustřeďuje na statistiku zastoupení funkčních slov v textu (např. a, all, also, an, and, its, may, on, upon, will, with ap.). Jejich výskyt se řídí tzv. Poissonovým zákonem rozložení řídkých jevů, který se pak stává kritériem porovnávání zkoumaných textů. Pomocí Bayesova teorému lze vypočítat pravděpodobnost shody mezi spornými texty a konkordancemi možných autorů. Výsledky statistických výpočtů stanoví s pravděpodobností 80 až 800 :1 autorství jednotlivých esejů. Tam, kde se na autorství podílí více než jeden autor (listy č. 18, 19 a 20), lze kvantitativně prokázat rozhodující úlohu jedné osoby.

Shrnutím rozsáhlejší práce o Swiftově próze[3] je stať L. T. Milica Unconscious Ordering in the Prose of Swift (79—106). Autor odmítá vágní charakteristiky stylu (těžký, živý ap.). Rozsáhlý kvantitativní výzkum frekvence 23 slovních tříd umožňuje poznat osobitost Swiftova vyprávění — jeho preferování juxtapozičně řazených substantiv a značnou varianci spojovacích a odkazovacích výrazů v iniciální pozici ve větě.[3a] Pomocí těchto kritérií lze statisticky stanovit vlastnosti Swiftova textu (v porovnání se stylem esejů Macaulayových, Addisonových, Gibbonových a Johnsonových) a určit autorství Dopisu mladému básníkovi, který bývá Swiftovi připisován.

Obecnou úvahou o filiaci textu je stať B. O’Donella Stephen Crane’s the O’Ruddy: A Problem in Authorship Discrimination (107—115). Nedokončený román The O’Ruddy byl po Craneově smrti dopsán Robertem Barrem; ten pak uplatňoval své autorské právo ve větší míře, než mu bylo právně přisouzeno. Matematickým modelem této úlohy je dvouskupinová diskriminační analýza; její aplikací lze rozhodnout, který z textových úseků je možno přisoudit kterému autorovi na podkladě kvantitativních měr jazykových jevů z oblasti lexika, syntaxe a interpunkce, poetiky ap. Výsledky rozboru s vysokou pravděpodobností ukázaly, že 1.—24. kap. napsal Crane, 25. kap. má přechodný charakter, Barr je pak autorem 26.—33. kap. V první části románu pouze dva úseky ze 24 kapitol byly přisouzeny Barrovi; důvod jejich vepsání lze osvětlit až podrobnou literární analýzou.

Práce J. Milesové a H. C. Selvina A Factor Analysis of the Vocabulary of Poetry in the Seventeenth Century (116—127) porovnává výskyt charakteristických slov u třiceti anglických básníků 17. stol. Výsledkem této konfrontace, která se provádí pomocí (tzv. varimaxové) faktorové analýzy, jsou svazky (clusters) vzájemně korelovaných jevů, tzv. faktory zobrazující jak vztahy mezi slovy (word-factors), tak i stupeň příbuznosti mezi zkoumanými autory (poet-factors). Pro každý z faktorů byl zjištěn typický představitel, jehož slovník obsahuje nejvíce společných slov s autory téhož svazku. Celkové zastoupení provázených básníků v hledaných faktorech udává zřetelnou taxonomii stylových a věcně obsahových prostředků podle volby autora.

Metodologicky zajímavá je jedna z nejzávažnějších statí sborníku Statistical Methods in Literary Analys profesora lovaňské university H. H. Somerse (128—140). Autor podává kvantitativními údaji ilustrovaný důkaz pravosti autorství epištol apoštola Pavla. Předmětem rozboru jsou dva soubory textů — deset prací Filona Alexandrijského, řecky píšícího židovského filosofa Pavlova období, a devět Pavlových epištol spolu s výborem Selectio textuum de imagine dei. Cílem řešení je dokázat statisticky významný rozdíl mezi oběma autory a homogennost textů jednoho autora. Pro první úlohu volí Sommers Fisherovu diskriminační funkci, která udává regresní vztah mezi kvantitativními [448]charakteristikami porovnávaných prací, tj. četností slov, substantiv, sloves, členů, zájmen, předložek, adjektiv, spojek, participií, podřadicích spojek a negací. Obtížnějším úkolem je důkaz homogennosti textů u každého autora, prováděný pomocí Hotellingova testu T2. Výsledky konfrontace je nutno dále ověřovat novými procedurami (Kolmogorovovým neparametrickým testem D a informačněteoretickými mírami) a podrobnější analýzou materiálu na základě úplného slovníku Nového zákona[4] a dalších děl (Geneze, Apokalypsy, Knihy moudrosti a Skutků apoštolských). Toto kritérium zřetelně ukazuje, že ačkoli slovník a volba gramatických kategorií Pavlových epištol je rozptýlenější než v pracích Filonových, přesto se velmi zřetelně odlišují od textových souborů ostatních. Na souhrnu zjištěných statistických měr se pak v závěru výzkumu provádí faktorová analýza jako metoda zaměřená na hlubší poznání Pavlova stylu. První, lexikální faktor prozrazuje Pavlovu zálibu v neobvyklých, spíše abstraktních obrazech a dlouhých slovech, druhý faktor znázorňuje polární protiklad mezi kvalifikačním a dynamickým vyjadřováním (substantivně verbální opozici odpovídající některým tradičním mírám psychologickým, např. Busemannovu koeficientu a jeho variantám[5]) a konečně třetí faktor, pro Pavlovo vyjadřování nejtypičtější, ukazující převahu komplikovaného subordinačního vyjadřování (charakterizovaného výskytem předložek, negací a podřadicích spojek) nad prostě narativním. Pomocí autorem navržené míry O (= loglog V/loglog N, kde V je sumou lexikálních typů a N sumou exemplářů)[6] lze charakterizovat vývojové tendence vah prvního faktoru, které jsou v souladu s chronologií jednotlivých epištol.

Další evropští autoři A. Q. Morton a M. Levison (Some Indicators of Authorship in Greek Prose, 141—179) se zamýšlejí nad diskriminativními schopnostmi jedné z nejčastěji uváděných kvantitativních měr — délky věty a jejího rozložení — a hledají její matematický model. Tabulkami hojně doložená stať obsahuje materiál z próz Klimentových, Herodotových, Thukydidových, Filonových, Lysiových, Démosthenových a Isokratových. Délka vět v počtu slov má periodické vlastnosti; ve zkoumaných úryvcích o délce sto vět se poměrně pravidelně střídají úseky s kratšími větami s úseky vět delších. Ukazuje se jako prospěšné respektovat i žánrovou diferenciaci textů a odlišit dialog od autorské řeči. Dalším vhodným diskriminátorem jsou funkční slova, která nepodléhají většině tematických omezení.

Celkové hodnocení sborníku je poněkud ztíženo skutečností, že autoři nerovnoměrně akcentovali hledisko literárně stylistické a kvantitativní. Užitečnost většiny statí spočívá podle našeho názoru především v zajímavém a většinou výstižném shrnutí některých problémů kvantitativní stylistiky, které jsou často rozptýleny v těžko dostupných pracích nestejného dosahu a publicity. Společným rysem všech autorů je jejich soustředění na minuciózní rozbor textu a jistá nechuť k obecně lingvistickým a teoretickostylistickým generalizacím. Stati většinou neobsahují nová řešení, ale bohatým materiálem a přesvědčivostí výkladu znamenají přínos jak pro stylistiku, tak i pro textologii a obecně pro literární vědu.


[1] Srov. F. Mosteller — D. L. Wallace Inferrence in an Authorship Problem, JASA 58, 1963, 275—309 a P. Vašák, Statistika a sporné autorství, SaS 27, 1966, 364—371.

[2] Dějiny sporů o autorství federalistických rukopisů trvají více než 150 let a zahrnují značné množství prací. Jejich přehled srov. v D. Adair, The Authorship of the Disputed Federalist Papers, The William and Mary Quarterly 1, 1944, 97—122, a J. E. Coocke, The Federalist, Cleveland 1961.

[3] L. T. Milic, The Style of Swift: A Quantitative Approach, The Hague 1967.

[3a] Charakteristiky typu těžký, živý zamítala stylistika formalistická i strukturální už od svého počátku ve 20. letech a opírala se právě o zjišťování jazykových prvků takových typů, jaké Milic uvádí. rd

[4] R. Morgenthaler, Statistik des Neutestamentischen Wortschatzes, Curych 1958.

[5] A. Busemann, Die Sprache der Jugend als Ausdruck der Entwicklungsrhytmik, Jena 1925, a D. P. Boder The Adjective verb Quotient: A Contribution to the Psychology of Language, Psych.—Revue 1940, 3.

[6] H. H. Sommers, Analyse mathématique du langage: Lois générales et mesures statistiques, Nauwelaerts — Lovaň 1959.

Slovo a slovesnost, ročník 29 (1968), číslo 4, s. 446-448

Předchozí Pavel Vašák: Druhá sovětská konference o frekvenčních slovnících

Následující Přemysl Janota: Studie o akustické analýze českých hlásek