Časopis Slovo a slovesnost
en cz

Statistika a sporné autorství

Pavel Vašák

[Rozhledy]

(pdf)

Статистика и споры об авторстве / La statistique et la qualité d’auteur contestable

V poslední době vyšlo několik prací, které se zabývají řešením problémů tzv. sporného nebo nejistého autorství. Patří sem především dvě knihy Alvara Ellegårda, článek C. S. Brinegara a práce F. Mostellera a D. L. Wallaceho.[1] Při řešení této problematiky užívají autoři především matematickostatistických a pravděpodobnostních metod. Pokusíme se jednotlivé práce navzájem konfrontovat a uvedeme výsledky, kterých bylo dosaženo v této oblasti kvantitativní lingvistiky.

Důvodem pro řešení sporného autorství není jen pouhý zájem o „taje“ literární minulosti, ale úspěšným vyřešením problému je často možno dokázat předpokládanou autorovu úlohu ve společenském životě dané doby, jeho úlohu politickou i kulturní. Dílo je potom možno lépe začlenit do kontextu literárního vývoje, z nových aspektů posoudit jeho význam a doplnit vývojovou linii jak celé literatury, tak předpokládaného autora.[2] V české literatuře např. existuje spor o autorství několika básní a povídky Kříž pod Petřínem, otištěné v almanachu Máj z roku 1858. Básně i fejeton jsou sice podepsány jménem Josefa Baráka, ale na základě literárněhistorických a textových výzkumů O. Králíka se snaží jako možného kandidáta ukázat Jana Nerudu.[3]

Metody řešící sporné autorství jsou v podstatě dvojího druhu: (1) textový, resp. jazykový rozbor díla, tj. rozbor díla vzhledem k jeho jazyku, stylu apod., a to i s využitím nejrůznějších kvantitativních charakteristik a jejich porovnávání matematickými, resp. matematickostatistickými metodami; (2) literárněhistorický rozbor, tj. rozbor díla vzhledem k jeho námětu, časovému umístění apod. V tomto příspěvku se soustředíme na ty metody, které využívají poznatků matematické lingvistiky.

Považujeme-li zkoumané dílo za určitý soubor (text) X, v kterém lze zjistit nejrůz[365]nější kvantitativní charakteristiky (ty si nakonec volí badatel podle svého záměru), a díváme-li se právě tak i na díla každého kandidáta autorství Ai, jde o to, kterému autorovi Ai přisoudíme soubor (text) X. Užijeme-li jako charakteristiky textu např. rozložení délky vět, rozhodujeme metodami matematické statistiky, který z autorů Ai má s textem X statisticky shodné rozložení. Pomineme-li zatím volbu takových charakteristik, musí se před započetím práce vyřešit problém volby porovnávací množiny M autorů Ai (porovnávací množina není běžně užívaný termín). Musí se nalézt taková porovnávací množina M, jejímuž některému prvku (prvek = autor) chceme přisoudit X vzhledem k volbě porovnávacích charakteristik.

Otázkou především je, kolik prvků bude mít porovnávací množina M, tj. kdo přichází v úvahu jako kandidát autorství. Mohou nastat dva případy: (a) počet autorů (resp. jejich jména) je předem znám a vyplývá z nejrůznějších dodatečných informací, především z historické souvislosti; (b) počet autorů (resp. jejich jména) není vůbec znám. — Nejjednodušším případem spadajícím pod a) je ten případ, kdy jako možní kandidáti přicházejí v úvahu pouze dva autoři A1, A2. Potom jde o alternativní rozhodnutí mezi A1 a A2.[4]

V případě většího počtu autorů jde o rozhodnutí mezi k autory A1, A2, … Ak. Není-li počet autorů znám vůbec, měla by se teoreticky jako porovnávací množina vzít populace všech lidí daného časového období. Pro technickou nemožnost tohoto přístupu musí se badatel omezit na počet daleko menší. Vychází se z předpokladu, že zkoumané dílo napsal někdo z literárně činných lidí daného časového období. I tento počet se musí omezit na takový rozsah, který je ještě možno zpracovávat (tento případ pak opět spadá pod a). Např. švédský lingvista Ellegård se při řešení autorství tzv. Juniových dopisů (viz dále) omezuje na 100 literárně činných Angličanů „juniovského“ období. Ve všech těchto případech lze samozřejmě namítnout, že dílo mohl napsat ten autor, jehož literární činnost se omezila jen na zkoumané dílo. Potom ho nezachytí síto sebedokonalejší metody, i když by se správně mělo dojít k závěru, že žádnému autorovi z porovnávací množiny M není možno dílo X přisoudit. Z toho je vidět, že volba metody může výsledky zkoumání značně ovlivnit, event. i posunout k nesprávným závěrům. Je proto žádoucí, aby se shodovaly závěry literárněhistorické a statistickolingvistické.

Řešení sporného autorství je mimo jiné spjato s řešením autorství tzv. dopisů Juniových.

Téměř před dvěma sty lety (21. ledna 1769) vyšel v londýnských novinách Veřejný oznamovatel (Public Advertiser) dopis podepsaný pseudonymem Junius a po tři léta pak tu byly uveřejňovány další dopisy podepsané tímto pseudonymem. Otázkou, kdo byl záhadný Junius, se zabývala celá řada badatelů, dokonce se říká, že Junius je největší záhadou světové žurnalistiky.

Nejnovějším příspěvkem do „juniovské literatury“ jsou výše uvedené dvě knihy Alvara Ellegårda (viz zde pozn. 1).

První kniha je úvodem do juniovské problematiky, udává historické souvislosti, vznik dopisů, bibliografické údaje juniovské literatury, kromě toho též obsahuje nárys Ellegårdem užité metody. Lingvistická a statistická problematika spojená se „statistickou metodou pro určování autorství“ jakož i metoda sama je podrobně a přehledně uvedena a ze všech možných hledisek rozbírána v knize druhé.

Hlavním cílem práce není E-ovi rozřešení autorství dopisů, ale vyvinutí statistické metody vhodné jako test autorství; metodu i její konkrétní aplikaci předvádí na Ju[366]niových dopisech proto, že „neobyčejně dobře ilustrují proceduru“, dopisy tvoří uzavřený celek poměrně jednolitého materiálu — celkem asi 150 000 slov.

Metoda, kterou E. vypracoval, se snaží postihnout jazyk a styl autora na základě kvantitativních údajů. Základní pracovní hypotézou pro test autorství na tomto základě je předpoklad, že v autorově jazyku a stylu existují jisté rysy nebo kombinace těchto rysů, které zůstávají poměrně konstantní, event. se mění předpověditelným způsobem. Tuto hypotézu E. dále zpřesňuje na základě předpokladu, že alespoň pro některé rysy existují mezi autory rozdíly, které jsou větší než rozdíly mezi jednotlivými texty téhož autora. V E. pojetí znamená slovo styl „konstantní rysy nebo kombinace rysů autorova způsobu psaní“, což můžeme srovnat s definicí B. Blocha, který chápe styl jako „rozložení frekvencí a přechodových pravděpodobností jazykových prostředků, zvláště pokud se liší od frekvencí týchž prvků v jazyku jako celku“.[5] V E. pojetí pak např. i „špatný styl“, tj. neobratný způsob vyjadřování myšlenek, může se ukázat jako znamenitý prostředek identifikace. Hodnocením Juniova stylu dospěl E. k závěru, že je to styl protikladné konstrukce (antitetický) a pro identifikaci autora nelze tohoto poznatku užít, neboť tento způsob psaní byl v Juniově době značně rozšířen a není pro Junia nijak typický. Takový způsob psaní je možno snadno napodobit, je to vědomá forma písemného vyjádření autora.[6] E. snahou je proto odhalit nevědomé rysy autorova způsobu psaní, o kterých předpokládá, že jsou statisticky zachytitelné a za jistých stastistických předpokladů mohou být podkladem pro identifikaci. Jako „podvědomou lingvistickou vlastnost“ užil E. nejprve poznatek G. U. Yula o rozložení délky vět jakožto charakteristiky stylu.[7] Aplikací příslušného testu však E. zjistil, že variabilita délky vět uvnitř dopisů Juniových převyšovala variabilitu mezi texty různých autorů. Podobně E. zamítl test zakládající se na tzv. konstantě K,[8] který má podle E. malou rozlišovací sílu.

E. navrhl a aplikoval test slovníkový (vocabulary test). Vychází z obecného poznatku, že některých slov, slovních spojení a obratů užívá jeden autor častěji než autoři jiní. Slova, kterých autor užívá častěji, a jsou tudíž jistým způsobem charakteristická pro jeho způsob psaní, nazývá E. slova kladná (plus word); druhou skupinu tvoří slova záporná (minus word). Obě skupiny se setkávají uprostřed, kde jsou slova neutrální,[9] tj. taková, kterých autor užívá zhruba stejně často jako autoři jiní. Z toho je vidět, že je důležité vzít v úvahu frekvenci slov, event. slovních skupin, neboť na základě frekvence je možno jednoduchým výpočtem určit autorova slova kladná a záporná. Známe-li frekvenci slov v textech zkoumaného autora a odpovídající frekvence v literatuře téhož žánru a z téhož časového období, pak prostým dělením relativních frekvencí najdeme u autora kladná a záporná slova.

[367]Např. adjektivum uniform má v Juniových textech frekvenci 0,000280; ve srovnávacím výběru současné literatury (tj. v době Juniově) má pak frekvenci 0,000065. Dělením obou frekvencí, tj. výpočtem poměru 0,000280 / 0,000065, dostaneme hodnotu 4,3. Tento poměr nazývá E. distinktivní poměr (distinctiveness ratio). Znamená to, že adjektivum uniform je pro Junia jasně kladné slovo.

Pro identifikaci autora sestavuje E. seznam Juniových slov kladných a záporných, a to na základě dvou množin dat: (1) relativních frekvencí slovníku autora, jehož dílo studujeme, (2) relativních frekvencí slovníku literatury téhož žánru a z téže doby. Bylo by jistě ideální, aby obě množiny frekvencí byly založeny na co nejširším základě, tj. aby např. existoval frekvenční slovník autora nebo doby.

Aby se E. vyhnul technicky neproveditelné totální excerpci jak celého díla Juniova, tak textů z porovnávací množiny autorů, postupoval takto: pročetl Juniův materiál i texty z porovnávací množiny autorů, aby se seznámil s jazykem doby; potom četl Juniův materiál znova a zaznamenával taková slova a slovní spojení, kterých podle jeho mínění užil Junius častěji než jeho současníci. Podobně četl srovnávací texty (tento výběr zahrnoval asi 100 autorů, celková délka textu dávala milión slov) a zaznamenával taková slova a slovní spojení, která byla užita častěji než u Junia a dále takové slovní výrazy, o kterých si nepamatoval, že by je Junius užil. Pro slova získaná tímto „výběrovým způsobem“ zjistil E. skutečnou excerpcí jejich frekvence výskytu, vypočítal distinktivní poměry a sestavil předběžný testový seznam. E. doznává, že ne vždy byly jeho předpoklady získané čtením materiálu správné; některá slova se po provedení výpočtu distinktivního poměru ukázala jako slova jiného typu. Tímto způsobem získaný předběžný testový seznam obsahoval 458 výrazů[10] a byl východiskem pro skutečnou identifikaci: podle E. je nepravděpodobné, že bychom pro různé autory dostali identické testové seznamy.

Proti tomuto postupu lze snad namítnout, že takto získaný seznam není výstižným popisem autorova slovníku. Přes subjektivní výběr slov se díky výpočtu distinktivního poměru subjektivita do jisté míry anuluje, nehledě k tomu, že nás především zajímají frekvence výskytu.

K potvrzení hypotézy, že autorovo užívání slov zůstává během díla rozumně konstantní, rozděluje E. celý materiál (tj. Juniův i texty porovnávací) na části o 2000 slovech a po zpracování na počítači a porovnání výsledných frekvencí dospívá k závěru, že způsob konstrukce testového seznamu je možno považovat za přípustný.

Jiná potíž, na kterou E. upozorňuje, jsou výběrové fluktuace získaných frekvencí. Má-li nějaké slovo frekvenci 0,0001, potom to neznamená, že každý výběr o 10 000 slovech bude toto slovo obsahovat právě jednou (teoretický počet výskytů lze vypočítat na základě Poissonova rozložení). Pro snížení výběrových fluktuací doporučuje E. buď zvyšovat rozsah výběru, nebo založit identifikaci nikoli na jednotlivých slovech, ale na celých skupinách slov. E. dává přednost seskupování slov; neseskupuje slova náhodně, ale na základě stejných distinktivních poměrů. Při prvním přístupu vytváří skupinu slov kladných a skupinu slov záporných. Pro obě skupiny odhaduje u Junia i ostatních autorů průměr a rozptyl, konstruuje interval spolehlivosti a porovnává, které texty ostatních autorů dosahují Juniových hodnot. Nejlepší výsledky jsou u textů Philipa Francise; pět z jeho textů dosahuje Juniových hodnot v obou skupinách, každý text alespoň v jedné. Podle E. však test založený pouze na úhrnné skupině slov kladných a skupině slov záporných není dostatečně citlivý; snaží se proto získat takový seznam, který by byl k individuálním Juniovým charakteristikám citlivější než k cha[368]rakteristikám, které má Junius stejné s ostatními pamfletisty. Vychází ze zajímavého postřehu, že Juniův slovník se přizpůsoboval jednak stylu Veřejného oznamovatele, jednak slovníku ostatních pamfletistů. Proto pořídil nový výběr, který obsahoval 100 000 slov z politických dopisů otištěných ve Veřejném oznamovateli v Juniově době. Na základě tohoto výběru vytváří E. pomocný testový seznam. Jestliže se v některém výrazu oba seznamy příliš lišily, E. tento výraz vyloučil.

Na závěr E. zlepšil testový seznam tím, že oddělil zpracování tzv. alternativ (tj. např. on upon, among amongst, doubt not do not doubt have no doubt make no doubt atd.). Je-li např. slovo on klasifikováno jako kladné, potom je nanejvýš pravděpodobné, že upon bude záporné; alternativy jsou tedy lingvisticky závislé jednotky. Znamená to, že dosavadní skupiny kladných a záporných slov jsou na sobě závislé; jejich odděleným zpracováním je podle E. možno dosáhnout nezávislosti kladných a záporných slov, což je předpokladem pro statistické podpoření výsledků.

Konečný testový seznam obsahuje 220 jednotek a 122 alternativ. Po statistickém zpracování (opět se na základě stejných distinktivních poměrů shrnují slova do skupin, ne však pouze dvě skupiny) dochází E. k závěru, že autorem Juniových dopisů je Philip Francis, úředník ministerstva, společensky tehdy poměrně vysoce postavená osoba. Tato skutečnost může z druhé strany podpořit E. závěr: z obsahu dopisů vyplývá, že jejich autorem musel být ten, kdo měl dobrý přehled o politické situaci a kdo měl informace „z první ruky“.

V závěrečné části své druhé knihy E. získaný výsledek hodnotí na základě pravděpodobnostního modelu, urny, která obsahuje míče různé barvy; červené míče jsou autoři píšící jako Junius a mezi nimi je jeden hledaný Junius.[11]

E. je přesvědčen, že jím navržený test je dostatečně citlivý a spolehlivý až do výběrů o 2000 slovech. Závěrem podotýká, že by bylo výhodné, kdyby existoval speciálně k řešení sporného autorství sestavený frekvenční slovník; dosavadní frekvenční slovníky se pro problémy sporného autorství nehodí.

Obě E-ovy knihy, zvláště druhou, je možno doporučit nejen zájemcům o problémy sporného autorství, ale především lingvistům, kteří se zabývají lexikální statistikou a lingvistickostatistickými rozloženími. E-ův výklad je poutavý a metodu předvádí přehledně; neopomine ani jedinou příležitost ke zlepšení metody. Kniha Who was Junius? je přímo školským příkladem „literárního“ předvedení matematických výsledků. Obě knihy jsou pak dokonalou ukázkou syntézy matematických a lingvistických metod. Obdobou je citovaná kniha Yulova; Yulův výklad je sice přesný a matematicky korektní, bohužel ne vždy zcela přehledný. Nejzajímavější na obou E-ových pracích je jejich přínos ke dvěma problémům: (1) zda možno považovat průběh některých charakteristik během textu za konstantní, resp. zda nastávají jejich změny předpověditelným způsobem; (2) zda možno připsat individuím lingvistické rysy (resp. jejich průběh) s jednotlivými individui.

Další prací, která se zabývá sporným autorstvím, je stať C. Brinegara (o. c. v pozn. 1), který řeší autorství deseti dopisů otištěných v r. 1861 v New Orleans Daily Crescent. Dopisy byly podpisovány pseudonymem Quintus Curtius Snodgrass a většinou se tvrdí, že jejich autorem je Mark Twain. Na základě této hypotézy se mnozí snažili dokázat Twainovu předpokládanou úlohu v občanské válce. Brinegar vychází z rozložení délky slov, tj. nevybírá si pouze určitý typ slov (formální, plnovýznamová), ale klasifikuje podle počtu písmen všechna slova. Myšlenku o užití rozložení délky slov převzal ze dvou starých Mendenhallových prací,[12] v nichž jde mimo [369]jiné o zjištění, zda Shakespearova díla napsal filosof Francis Bacon. Grafickou reprezentací distribuce délky slov je podle Mendenhalla „characteristic curve of composition“, což dává možnost identifikovat autora, nebo aspoň některé kandidáty vyloučit. Mendenhall ovšem výsledky hodnotil pouze grafickým porovnáním distribucí (ostatně v oné době mohl stěží užít nějakých statistických testů shody). M. srovnává distribuci 400 000 slov z W. Shakespeara a 200 000 slov ze spisů Baconových. Obě distribuce se graficky liší, největší rozdíl se ukazuje u slov o délce 4, která Shakespeare užívá daleko častěji než Bacon; dále lze u Shakespeara zjistit tendenci užívat menší počet delších slov (8 a více písmen).

Při aplikaci tohoto testu Brinegar nejprve zjistil rozložení délky slov ze zaručeně Twainových dopisů z let kolem roku 1861. Tuto distribuci porovnal s délkou slov Twainových dopisů z let 1872 a 1897; zjistil, že Twainovo užívání slov se během 40 let nijak nemění. Nakonec B. porovnává χ2 testem a t-testem rozložení délky slov pro dopisy Curtia Snodgrasse s rozložením pro Twainovy dopisy kolem roku 1861. Ukazuje se, že Twain nebyl autorem zmíněných dopisů.

Na této práci je zajímavé zjištění, že rozložení délky slov se během let nijak podstatně nemění a že je možno považovat ho za charakteristiku autora (aspoň pro angličtinu). Liší-li se distribuce délek slov dvou dostatečně rozsáhlých textů, je možno tuto skutečnost považovat za důkaz, že texty jsou od různých autorů; shoda distribucí hypotézu o stejném autorovi podporuje, ale nedokazuje.

Mosteller a Wallace[13] se zabývali zjišťováním autorství tzv. Federalistických článků, které byly publikovány v l. 1787—88. Je známo, že jejich autory byli A. Hamilton, J. Jay, J. Madison; autorství 12 článků je jednou připisováno Hamiltonovi, jindy Madisonovi. Texty těchto dvou autorů je velice těžké rozeznat, neboť oba dva byli mistry v stejném stylu psaní, navíc se ani neliší průměrná délka jejich vět: 34,55 a 34,59 se směrodanými odchylkami 19,2 a 20,3. Naskýtá se proto otázka, jak by se v tomto případě uplatnil test Brinegarův. Mosteller a Wallace užívají jako test autorství diskriminační funkci a Bayesův teorém. Jako proměnné pro diskriminaci slouží tu pomocná slova, např. upon, also, an, by, of atd.[14] M. a W. tak dávají těmto slovům[15] přednost před slovy plnovýznamovými, která jsou značně závislá na tematice a podle M. a W. pro řešení problémů sporného autorství dokonce nebezpečná. Ukazuje se, že autorem Federalistických článků je Madison. Zdá se však, že myšlenka o užití formálních slov jako základ testu autorství vyžaduje hlubšího lingvistického prověření.

Shrneme-li naše pozorování, vidíme, že Yule, Brinegar, Ellegård i Mosteller a Wallace užívají při řešení sporného autorství slovníkových testů. Yule vychází především ze substantiv, Ellegård užívá slov plnovýznamových, Brinegar slov plnovýznamových i neplnovýznamových, Mosteller a Wallace neplnovýznamových. Yule konstruuje charakteristiku K, Ellegård testový seznam, Brinegar určuje rozložení délky slov, Mosteller a Wallace vycházejí z diskriminační funkce. Bylo by jistě zajímavé aplikovat některý tento přístup na český materiál, což by přispělo k řešení otázky, co je možno z hlediska českého materiálu považovat za charakteristiku stylu textu, resp. individ. stylu autorského. Zdá se však, že při řešení problému sporného autorství musí badatel vypracovat do jisté míry metodu novou, tj. takovou, která je uzpůsobena povaze daného problému.

[370]Volba vhodné statistickolingvistické charakteristiky je základní otázkou při sporném autorství; druhou otázkou je způsob statistického a lingvistického hodnocení výsledků. Domníváme se, že pro problémy sporného autorství by bylo vhodné zjistit větší množství charakteristik a vícerozměrnými statistickými metodami je pro jednotlivé texty, event. autory porovnávat. Některé z těchto charakteristik (lépe řečeno výchozích hodnot) se mohou po výpočtu ukázat jako naprosto necharakteristické a nemohou proto texty mezi sebou rozlišit. Užijeme-li např. faktorové analýzy, pak ty základní údaje, které jsou pro autory necharakteristické (což vzhledem k lingvistické povaze problému nemůžeme tvrdit od počátku), budou mít stejné faktorové váhy. Výhodnost faktorové analýzy je v tom, že každý údaj hodnotí vzhledem k celému souboru ostatních údajů. Metoda údaje nepodstatné „odstraňuje“, údaje podstatné, tj. charakteristické, při její aplikaci vystupují „na povrch“. Zdá se též, že pro sporné autorství by byly vhodné testy neparametrické, které nevycházejí z předpokladu jistého typu rozložení. Hledání statistických rozložení lingvistických jednotek je velmi obtížné a často problematické. Potom se stává, že statisticky signifikantní výsledek není signifikantní lingvisticky.

Uvážíme-li možnost volby základních údajů, vidíme, že můžeme volit z těchto typů kvantitativních údajů: (a) z četností lingvistických jednotek; (b) ze statistické charakteristiky (průměr, rozptyl, atd.); (c) z indexů a koeficientů (Yulova konstanta, Busemanův koeficient, aj.); (d) z informačněteoretické charakteristiky.[16]

Z uvedených příkladů je vidět, že problémy sporného autorství patří i k lingvistickým problémům. Jsou ve značné míře ideální oblastí lingvistického výzkumu na ověřování teoretických předpokladů jak ve statistice, tak především v lingvistice.


[1] A. Ellegård, Who was Junius? Stockholm 1962, 159 s.; týž, A Statistical Method for Determining Authorship. The Junius Letters, 1769—1772, Stockholm 1962, 115 s.; C. S. Brinegar, Mark Twain and the Curtius Snodgrass Letters: A Statistical Test of Authorship, JASA 58, 1963, 85—96; F. Mosteller - D. L. Wallace, Inference in an Authorship Problem, JASA 58, 1963, 275—309.

[2] V této souvislosti můžeme připomenout zájem o dílo francouzského básníka 15. stol., Françoise Villona. Některé výzkumy Tristana Tzary ukazují, že by Villon mohl být totožný s básníkem Vaillantem, čímž by se dosud známé Villonovo dílo podstatně zvětšilo. Viz o tom životopis a ediční poznámky J. Felixe k výboru Já, François Villon, Praha 1964, 90—112.

[3] O. Králík, Neruda nebo Barák?, Lit. nov. 6, 1957, č. 4, s. 6; s Králíkovými závěry polemizoval F. Vodička, Ještě jednou: Neruda nebo Barák?, tamtéž 7, 1958, č. 4, s. 6. — Neruda - Barák není jediným sporným autorstvím v české literatuře. Např. v časopise Lumír z roku 1885 vyšlo celkem 21 fejetonů (pozoruhodných zvláště ostrým útočným tónem), které byly podpisovány pseudonymy jako Anubis, Osiris, Trut atd. Není přesně o všech fejetonech známo, kteří autoři jsou za těmito pseudonymy skryti. — O podobných problémech viz populárně psanou knihu M. Ivanova Historie téměř detektivní, Praha 1964. — Srov. i zde diskusi O. Králík - B. Havránek (s. 316—333).

[4] Srov. též I. Neiescu - A. Stan - I. Stan, Contribuţii statistice la studiul paterniţaţii Cîntării Romîniei, Cercătări de lingvistică 1963, 329—342; titíž, Noi contribuţii statistice la studiul păternităţii „Cîntării Romîniei“, Cercetări de lingvistică 1964, 311—315. V těchto článcích se řeší autorství díla Cintarea Rominiei a rozhoduje se, je-li autorem Al. Russo, nebo N. Balcescu. V souvislosti s korelací mezi autory se o Cintarea Rominiei zmiňuje též G. Herdan, The Advanced Theory of Language as Choice and Chance, Berlin 1966, s. 163.

[5] B. Bloch, Linguistic structure and linguistic analysis, Washington 1953, 42.

[6] Též G. U. Yule nesouhlasí s tím, aby se na autora usuzovalo na základě charakteristických zvláštností jeho stylu, které mohou být imitovány. Žádá zejm. rozbor slovníku, čímž zachytí stylistickou charakteristiku autora. Srov. Statistical Study of Literary Vocabulary, Cambridge 1944, s. 2.

[7] G. U. Yule, On Sentence-length as a statistical characteristic of style in prose, Biometrika 30, 1939, 363—390; dále též C. B. Williams, A note on the statistical analysis of sentence-length, Biometrika 31, 1939—40, 356—361.

[8] O. c. v pozn. 6. Tato Yulova kniha je vůbec první systematickou studií aplikující kvantitativní lingvistiku na obor sporného autorství. Jako nástroj k identifikaci autora spisů De Imitatione Christi sloužila Yulovi konstanta K, která udává distribuci slov v textu. Při praktické aplikaci konstanty K Yule pouze porovnával konkrétní hodnoty, stejné hodnoty konstanty považoval za jistý důkaz autorství. Problém o variaci konstanty K uvnitř textů téhož autora Yule v praxi nedořešil. Nový způsob odvození konstanty K (bez Yulova předpokladu Poissonova rozložení) podává G. Herdan, A New Derivation and Interpretation of Yuleʼs „Characteristic“ K, Journal of Applied Mathematics and Physics (ZAMP) 6, 1955, 32—334.

[9] Ke stejným závěrům došla už M. Těšitelová, srov. např. K statistickému výzkumu slovní zásoby, SaS 22, 1961, 171—182.

[10] „Výrazy“ zahrnuté do testového seznamu jsou různého typu: většina jednotek seznamu jsou slova individuální. V mnoha případech byla slova odvozená přiřazena ke slovům základním a uváděna jako jednotka, např. absurd, absurdly, absurdity. Kromě toho není odlišováno adjektivum od shodné adverbiální formy a slova s prefixem un- a in- jsou vedena společně s původním kladným tvarem aj. Podrobněji viz A statistical method for determining authorship, s. 23.

[11] Ve vzorcích, které se při tomto modelu vyskytují, chybějí značky faktoriálů (!). Srov. A statistical method for determining authorship, s. 61—62.

[12] T. C. Mendenhall, The Characteristic Curve of Composition, Science 9, 1887, 237—249; A mechanical Solution of a Literary Problem, The Popular Science Monthly 60, 1901, 97—105; viz též C. B. Williams, Studies in the History of Probability and Statistics, Biometrika 43, 1956, 248—256.

[13] O. c. v pozn. 1; na základě metody Mostellera a Wallaceho řeší Nirasawa autorství spisu „Yura Monogatari“, který byl napsán v polovině 18. stol. v Japonsku. Srov. T. Nirasawa, Inference in the Authorship of „Yura Monogatari“, Mathematical Linguistics 33, 1965, 21—27 a 45—46.

[14] Jako zdroj tabelovaných anglických pomocných slov užívají čl. G. A. Millera - E. B. Newmana - E. A. Friedmana Length-frequency statistics for written English, Information and Control 1, 1958, 370—389.

[15] Tak činila již stará metoda stylometrická, uplatňovaná zejm. v klasické filologii, např. na zjištění autorství tzv. Platonových listů; srov. o tom např. v práci F. Novotného Platonovy listy a Platon, Brno 1926.

[16] O problematice textových charakteristik viz J. Kraus - J. Polák, Textové charakteristiky a textové vektory, Prague Studies in Mathematical Linguistics 2 (v tisku). V této stati je aplikována i uvedená faktorová analýza.

Slovo a slovesnost, ročník 27 (1966), číslo 4, s. 364-370

Předchozí Ema Danielová: Dva vzťahy z kvantitatívnej lingvistiky

Následující Jitka Štindlová: Po druhé o retrográdních slovnících