Časopis Slovo a slovesnost
en cz

Ke kvantitativní analýze textu

Marie Těšitelová

[Články]

(pdf)

К квантитативному анализу текста / Au sujet de l’analyse quantitative du texte

Jedním ze základních faktorů, který rozhoduje v lingvistice o výsledcích a jejich hodnotě při aplikaci kvantitativních metod, zejména statistických, je materiál, o nějž své šetření opíráme. Vzhledem k různým jazykovým rovinám, jejichž jednotky podrobujeme statistické analýze, a na tu se v tomto příspěvku speciálně soustředíme, jsou přirozeně požadavky kladené na tento materiál různé. Rozhoduje o nich v prvé řadě zvolený jazykový jev, resp. jednotka souboru; může jít např. o foném, grafém, slovo, tvar slova, spojení slov, větu, popř. o jednotku vyšší. Příklad uvedených jazykových jednotek sám o sobě ukazuje, že jde o problematiku případ od případu různou.

Ideálním případem při aplikaci statistických metod v lingvistice je zjišťovat parametry, tj. proměnné, které možno v jisté souvislosti považovat za konstantní pro příslušný jazyk; to by ovšem bylo možné na základě všeho jazykového materiálu. Ve skutečnosti nelze tuto podmínku realizovat, a proto jsme většinou odkázáni na výběry z jazykového materiálu, a tudíž pracujeme s charakteristikami, s náhodnými veličinami s určitým pravděpodobnostním rozložením v příslušném jazyce. Je tedy mimo jiné velmi důležité, který jazykový materiál k statistické analýze zvolíme, abychom se dobrali výsledků reprezentativních nejen z hlediska statistického, ale i lingvistického.

Pokud jde o jednotky nižší než slovo, často vystačíme s materiálem, který představují izolovaná slova. Záleží tu také na tom, jaký cíl při statistické analýze sledujeme a jak k danému účelu slova vybíráme, tj. na metodě výběru. Zvolená metoda výběru má ovšem důležitý význam při statistické analýze všech jednotek, i vyšších než slovo. Ale i problematiku výběru ponecháme v tomto příspěvku stranou a soustředíme se především na to, který jazykový materiál k statistické analýze vybíráme.

Zmíněná izolovaná slova jako materiál při statistické analýze jednotek nižších než slovo, ev. slov a jejich tvarů mohou být získána jednak ze systémového uspořádání lexikálních jednotek např. ve formě slovníků, zvl. abecedních, jednak — a to častěji — z jejich užití při komunikaci, resp. na základě jejich užití v textu. Výsledky statistické analýzy uvedených jednotek získané na základě těchto dvou skupin jazykového materiálu jsou většinou navzájem odlišné. Jinými slovy řečeno i frekvence jazykových jednotek nižších než slovo reaguje citlivě na materiál, na němž je nebo byla zkoumána. Toto zjištění v podstatě platí i pro jazykové jednotky vyšší než slovo.

Jazykové jednotky, jakými je slovo, ale i jednotky vyšší, a ovšem i nižší než slovo, zkoumáme při statistické analýze obvykle v rámci věty nebo jednotky vyšší, textu. Větu při tom chápeme jako jazykový útvar, který se řídí jistými pravidly vztahujícími se zejména na morfologické a syntaktické struktury, lineárně uspořádané, které se vyznačují jistou grafickou, popř. fonologickou utvářeností. Snad mimo extrémní případy, jakým je příklad věty ve školní učebnici (srov. Žák píše úkol) nebo román napsaný v jedné větě, vyskytuje se věta izolovaně jen zřídka, a proto při statistické analýze vycházíme většinou z textu. Ten chápeme v podstatě shodně s teorií textu jako integrovanou součást vyšší komunikační jednotky (Viehweger, 1977). Tato integrace se děje — vedle různých faktorů pragmatických — řadou jazykových prostředků, lexikálních i gramatických, které se podílejí na výstavbě textu a překračují hranici věty, popř. naznačují toto překročení. S těmito základními vztahy mezi větou a textem a jeho utvářením musíme počítat při statistické ana[2]lýze, resp. kvantitativní analýze vůbec, a to zejména tehdy, když se rozhodujeme, na jakém jazykovém materiále budeme sledovat zvolenou jazykovou jednotku souboru, a potom při hodnocení, interpretaci našich výsledků, statistických charakteristik. Oba tyto kroky při statistické analýze se dále pokusím ukázat a doložit.

Sledujme v podstatě grafické jednotky např. v této větě: I učinil jsem totéž. (K. Čapek, Život a dílo skladatele Foltýna). Spojka i naznačuje, že nějaký děj předchází, popř. jinak odkazuje k předcházejícímu ději; to ovšem z izolované věty nemůžeme rozhodnout. Zájmeno ukazovací, resp. odkazovací totéž se vztahuje k ději, který je uveden ve větě, popř. ve větách předcházejících, který se ev. inherentně vztahuje k předmětu. Jak tomu ve skutečnosti v obou případech je, ukáže doplnění věty předcházející a následující:

Pan Folten si zatím nalil čaje a pomalu jej míchal stříbrnou lžičkou; cukr si nevzal. I učinil jsem totéž. Fatty v rozpacích položil svůj chlebíček na krajkový ubrus, aby nezamazal talířek, a míchal také (K. Čapek).

Text, který vznikl uvedením dvou dalších vět, předcházející a následující, ukazuje, že spojka i se vztahuje k předchozímu ději a zájmeno totéž ukazuje na činnosti, které prováděl hrdina románu Foltýn (nalil si čaj, pomalu jej míchal atd.). V této větě nacházíme dále pronominální adverbium zatím, které naznačuje čas, v němž se tyto činnosti konaly. Jméno hrdiny (v podobě Folten, místo Foltýn, naznačující exaltovanost svého nositele, se dané problematiky bezprostředně netýká) má vlastně také širší vztah k výstavbě textu (srov. dále). Věta následující (Fatty v rozpacích položil …) děj dále rozvíjí, uvádí novou situaci, ale poslední přísudek (míchal) uvedený spojkou a následovaný pronominálním adverbiem také opět odkazuje k výše uvedené izolované větě. V rozvíjení textu bychom mohli dále pokračovat a zpřesňovat jeho interpretaci.

Domnívám se však, že uvedený příklad izolované věty a textu jasně ukázal, že izolovaná věta, zpravidla postihovaná náhodným výběrem vět, neposkytuje při statistické analýze reprezentativní materiál z hlediska jazykového, a to ani pro studium lexika, ani pro studium jevů gramatických, např. morfologických. V uvedené izolované větě je sloveso učinil jsem v 1. os. sg. ind. prét. akt.; v textu se ukazuje převaha 3. os. sg. ind. prét. akt. Ta má sice v textech uměleckých relativně nejvyšší frekvenci, i když frekvence 1. os. sg. má vzhledem k ní v těchto textech příznakové postavení, jak ukazuje FSČ (k tomu srov. i dále).

Uvedený příklad podle mého názoru také dobře ukazuje, že jako materiál při studiu jevů lexikálních a gramatických a ovšem i sémantických (Těšitelová, 1980) nejlépe vyhovuje souvislý text, ovšem musíme počítat s tím, že se vyznačuje typickými rysy a strukturální výstavbou, která přesahuje rámec věty. Z hlediska kvantitativní lingvistiky dále viděno, máme-li interpretovat charakteristiky zjištěné při statistické analýze textu, musíme mít na zřeteli i jeho strukturu jako jednotky komunikační, a to právě u jevů nejvíce frekventovaných. Je třeba připomenout, že se kromě konstatování, že tzv. formální slova mají vždy relativně největší frekvenci, těmto slovům většinou věnovala malá pozornost, popř. se vůbec pomíjela (Těšitelová, 1976), ev. byla bez další interpretace brána jako samozřejmost. Vzhledem k uvedeným faktům chtěla bych v tomto příspěvku ukázat:

I. tzv. textotvornost (řečeno v termínech teorie textu) nejvíce frekventovaných jazykových prostředků,

II. typologii textů na základě statistických charakteristik týkajících se jejich výstavby.

I. Sledujme nejprve jako textotvorné prostředky lexikální prvních 10 nejčastějších slov v cit. již díle K. Čapka:

(1.) a, (2.) ten, (3.) býti, (4.) on, (5.) , (6.) že, (7.) na, (8.) v/e, (9.) s/e, (10.) míti;

[3]stejně např. v díle V. Vančury Konec starých časů:

(1.) a, (2.) ten, (3.) on, (4.) býti, (5.) na, (6.) že, (7.) v/e, (8.) , (9.) s/e, (10.) pán/pan.

Nejen uvedené dva příklady, nýbrž i sama „norma“, kterou představuje FSČ (srov. tam prvních 10 nejvíce frekventovaných slov: (1.) a, (2.) býti, (3.) ten, (4.) v/e, (5.) on, (6.) na, (7.) že, (8.) s/e, (9.) z/e, (10.) který), ukazují, že se ve všech třech uvedených případech mezi prvními 10 nejčastějšími slovy z hlediska textotvorného vydělují tři skupiny slov, a to: (1.) spojky, (2.) zájmena, (3.) sloveso být, popř. zejména modální mít.

Ad 1: Pokud jde o spojky, není jistě třeba zvlášť zdůrazňovat, že patří převážně k jevům suprasegmentálním, i když mají ovšem i významnou úlohu ve větě. Za pozornost stojí, že v češtině je nejčastějším konektorem souřadicí spojka a a podřadicí spojka že, s frekvencí ovšem mnohem nižší. To lze vyložit nejen významem této spojky, ale i tím, že má úlohu pouze nadvětnou, chápeme-li souvětí jako vyšší útvar než větu jednoduchou.

Ad 2: Ze zájmen má jednoznačně nadvětnou funkci ukazovací, resp. odkazovací zájmeno ten (ta, to), jemuž byla z hlediska suprasegmentálního věnována značná pozornost (Palek, 1968, aj.). K němu se pak řadí zájmeno on (ona, ono), které má zvláštní postavení v rámci jak zájmen osobních (bezrodých), tak i zájmen rod rozlišujících, zejména pro analogickou funkci jako u zájmena ten, zvláště v projevech mluvených (srov.: Dnes si myslím, že jsem se k panu Foltýnovi nehodila: on byl jistě umělec, nevšední a básnická povaha …, K. Čapek).

Ad 3: Do této skupiny možno do jisté míry zařadit sponové sloveso být, které sice plní funkci jevu větotvorného, ale svým významem, který se vyznačuje velkou mírou neurčitosti, zaujímá v textu zvláštní postavení, jaké mají některé zmíněné již textotvorné prostředky, srov.: Totiž maminka se chudák zmýlila: myslela si, že je z malostranských Foltýnů, — to byla taková zámožná cukrářská rodina (K. Čapek). — Analogickou úlohu bych připisovala vysoce polysémnímu, zejména pak modálnímu slovesu mít.

Sledujeme-li z hlediska textotvornosti další relativně nejvíce frekventovaná slova v textu K. Čapka a V. Vančury, jednak roste počet slov zařazených do skupin dosud vydělených, jednak se rozšiřuje počet skupin slov, která se podílejí více nebo méně na výstavbě textu, o další dvě: (4.) o adverbia, převážně pronominálního původu, (5.) o tematicky podmíněná slova plnovýznamová, především substantiva. Srov.:

K. Čapek: (11.) Foltýn/-en, (12.) jako, (13.) ale, (14.) tak, (15.) co, (16.) pán/pan, (17.) svůj, (18.) jen, (19.) vy, (20.) do;

V. Vančura: (11.) míti, (12.) ale, (13.) o, (14.) k/e/u, (15.) do, (16.) svůj, (17.) co, (18.) z/e, (19.) tak, (20.) za.

Charakter slov zjištěných v obou textech se zhruba shoduje s analogickými údaji ve FSČ, s výjimkou 5. skupiny, srov.:

(11.) míti (se), (12.) , (13.) k/e/u, (14.) do, (15.) i, (16.) ale, (17.) svůj, (18.) jako, (19.) o, (20.) tak.

Z uvedených přehledů vyplývá, že do první skupiny spojek se tu hlásí zejména spojka ale, která ovšem funguje i v rámci věty. Do skupiny zájmen se dále řadí přivlastňovací zájmeno svůj a tázací, popř. vztažné zájmeno co, které může plnit i funkci výrazu spojovacího i popř. částice. Vedle toho přibývají zmíněné dvě nové skupiny slov textotvorných:

[4]Ad 4: Jsou to adverbia, převážně pronominálního původu, srov. tak, jako, jen, která můžeme označit jako další jazykové jevy překračující hranici věty a mající charakter textotvorný.

Ad 5: Do této skupiny řadím plnovýznamová slova, zpravidla substantiva, velmi často propria, osobní, ev. zeměpisná, i apelativa, která jsou tematicky podmíněna (konkrétní podoba, zvl. u vlastního jména nemá většinou rozhodující význam) a podle mého názoru mají i zvláštní postavení při výstavbě textu. K takovým slovům patří např. v Čapkově textu vlastní jméno Foltýn/-en, apelativum umělec, v textu Vančurově apelativa kníže, plukovník, vlastní jméno Michaela apod. Tato slova souvisí — jak jsem již uvedla — s obsahem textu, ale svým jazykovým ztvárněním plní ve výstavbě textu speciální úlohu.

Již dříve jsem se několikrát pokusila vyložit vysokou frekvenci substantiva pán/pan. (Srov. text Čapkův i Vančurův, ve FSČ patří toto slovo do páté desítky slov nejvíce frekventovaných.) Nejde o slovo plnovýznamové, nýbrž o jakousi předklonku konvenčního charakteru, kterou lze — z pohledu textu — zařadit mezi textotvorné prostředky, poplatné konvenci a době.

II. Některá slova podmíněná tématem (srov. výše) tvoří přechod mezi jazykovými prvky v obecném smyslu textotvornými, týkajícími se tzv. koheze textu, a prvky, které se podílejí na vytváření typu textu (srov. Mistrík, 1973), zvláště se zřetelem k funkčnímu stylu, stylu autora apod. Ukazuje se to zejména již na prvních 10 nejčastějších slovech v textech odborných (K. Chochola, Spalovací motory, A. Severin - V. Kasika, Průmyslová televize):

Spalovací motory: (1.) a, (2.) býti, (3.) na, (4.) motor, (5.) v/e, (6.) ten, (7.) do, (8.) válec, (9.) píst, (10.) ventil;

Průmyslová televize: (1.) býti, (2.) a, (3.) v/e, (4.) na, (5.) napětí, (6.) při, (7.) s/e, (8.) pro, (9.) z/e, (10.) elektronka.

V textech odborných patří tato slova většinou k termínům, mezi nimiž — jak známo — zaujímají substantiva zvláštní postavení (otázky terminologické nejsou ovšem předmětem tohoto pojednání); jednoznačně informují o tematice textu a představují základní, ale i spojovací kameny pro celou výstavbu textu, který má své specifické rysy, odlišné od rysů textů uměleckých (srov. i dále).

Ostatní plnovýznamová slova, adjektiva a slovesa, která můžeme podle statistické analýzy lexikální roviny zařadit mezi slova podmíněná tematikou, vyznačují se významně nižší frekvencí.

Pokud jde o adjektiva, patří k textově podmíněným zejména adjektiva vztahová, srov. hudební, umělecký u K. Čapka, přivlastňovací, srov. plukovníkův u V. Vančury apod. Relativně četná jsou tato adjektiva v textech odborných, kde tvoří spolu se substantivy tzv. sdružená pojmenování, srov. např. adjektiva nasávací, výfukový, klikový, Dieselův (motor) ve Spalovacích motorech, adjektiva obrazový, snímací, průmyslový (průmyslová televize) v textu o průmyslové televizi.

Snad pouze adjektiva jiný a celý, která se vyznačují relativně vysokou frekvencí v textech bez zřetele k jejich funkčně stylové příslušnosti, mají při výstavbě textu do jisté míry analogickou úlohu jako např. zájmena, tj. funkci ukazovací, resp. odkazovací, překračující rámec věty.

Kromě slovesa být (srov. výše) a sloves modálních (mít, moci, muset apod.) nacházíme velmi nesnadno mezi slovesy, zejména relativně více frekventovanými, taková, která by se dala zařadit k prostředkům textotvorným. Jejich zvláštní postavení v textu vytváří jejich vysoká polysémnost, srov. slovesa vědět, jít, říci, vidět, dát (se), stát apod. (srov. FSČ). Naproti tomu např. plnovýznamová slovesa jako otáčet, nasávat, vstřikovat apod. se již výrazně podílejí na vytváření textu jistého typu, a to odborného, a proto je v tomto příspěvku zařazujeme do oddílu II.

[5]Statistická analýza textu dále ukazuje, že mezi jazykovými prostředky, které se výrazně podílejí na výstavbě různých typů textů, patří do oblasti gramatiky, a to (1.) morfologie i (2.) syntaxe.

Ad 1: Při výstavbě textu a jeho typové diferenciaci se především uplatňují morfologické kategorie slovesné, jak potvrzují i výsledky statistické analýzy. Typicky slovesná kategorie modus, která se vždy vyskytuje v kombinaci, a to příznakové, s ostatními slovesnými kategoriemi, tj. časem, osobou a číslem (Těšitelová, 1980), podílí se např. na výstavbě textu z hlediska jeho stylové příslušnosti, jeho formy (psanosti a mluvenosti), ale i slohového postupu, tematiky textu apod.

Např. v češtině relativně nejvyšší frekvence ind. préz. akt. (tj. modus v kombinaci s časem minulým a osobou třetí) představuje jednoznačně příznakový rys textu uměleckého ve formě psané. Považujeme-li text dramatu za reprezentanta uměleckého textu mluveného, vystoupí v kombinaci těchto kategorií frekvence kategorie času přítomného (za stálé převahy frekvence modu (ind.)). V textech odborných, psaných i mluvených, při zachování modu (ind.) převládá kategorie času přítomného (na rozdíl od textů uměleckých psaných a ve shodě s texty uměleckými mluvenými).

Vzhledem k frekvenci kategorie slovesné osoby ukazuje se jako příznaková pro typ textu frekvence 1. os. sg. a pl., ev. 2. os. sg. a pl., kdežto 3. os. sg. a pl. má ve všech textech bez zřetele k jejich funkčně stylové příslušnosti i jejich formě relativně nejvyšší frekvenci, i když vyšší v sg. než v pl. Právě vzhledem k frekvenci 3. os. je příznaková např. frekvence 1. os. sg. v textech uměleckých (zejm. vlivem přímé řeči) a 1. os. pl. v textech odborných (vliv tzv. plurálu skromnosti apod.).

Frekvence slovesných kategorií ukazuje tedy závislost na typu textu a jeho výstavbě. V mnoha případech lze mluvit o jisté zákonitosti ve výskytu i v kombinacích morfologických kategorií slovesných při vytváření rysů, jimiž se text vyznačuje, popř. diferencuje od textu jiného.

Ad 2: V oblasti syntaxe má pro výstavbu jistého typu textu základní význam tzv. vnější organizace věty, tj. v podstatě poměr věty jednoduché a souvětí (pod pojmem věta jednoduchá rozumím v těchto svých výkladech větu jednočlennou i dvojčlennou, pod pojmem souvětí pak souvětí souřadné a podřadné). Statistická analýza tu ukázala některé zákonitosti pro výstavbu speciálního typu textu (Těšitelová, 1980). Struktury vnější stavby věty se vyznačují ovšem některými příznakovými rysy, kterými se odlišuje text umělecký od textu odborného, slohový postup (text s pasážemi vyprávěcími a popisnými) apod.

Např. v češtině se na výstavbě textu uměleckého podílí asi 55 % vět jednoduchých, a to poměrně krátkých, dále asi 30 % souvětí podřadných (s relativně dlouhou větou vedlejší) a 15 % souvětí souřadných (s poměrně dlouhými větami). Tato proporcionalita větných struktur je do té míry ustálena, že může odlišovat i funkčně stylistickou příslušnost textu. Tak pro texty odborné je příznačné více než 50 % souvětí podřadných (s relativně nepříliš dlouhou větou hlavní a vedlejší), asi 40 % vět jednoduchých (relativně dlouhých) a asi 10 % souvětí souřadných (rovněž s větami poměrně dlouhými). Nejen jistá vyváženost větných struktur v textu, ale i jejich délka je charakteristická pro text jako celek a jeho typ. Bylo to dobře ukázáno např. i pro němčinu (Höhne-Leska, 1975).

Pro poznání syntaktické výstavby textu je potřebné seznámit se s relacemi struktur uvnitř souvětí. Uvedu tu jen některé hlavní rysy platné pro český text umělecký a odborný:

V souvětí podřadném, které má vyšší frekvenci než souvětí souřadné jak v textech uměleckých, tak i odborných, ovšem s rozdíly (srov. výše), nacházíme pro výstavbu textu příznačné rozdíly v počtu vět hlavních a vedlejších i v jejich délce (v podstatě v počtu jejich syntaktických prvků). Text umělecký se vyznačuje vyšším počtem [6]vět hlavních, které jsou relativně kratší, a nižším počtem vět vedlejších, relativně delších. Text odborný se naopak vyznačuje vyšším počtem vět vedlejších než vět hlavních, bez významnějších rozdílů v délce těchto vět. Tím se udržuje jistá rovnováha ve výstavbě textů a jejich částí, zřejmě i v přímém vztahu k členění myšlenek a jejich pořádání při komunikaci.

Souvětí souřadné se účastní na výstavbě textu jistého typu méně často než souvětí podřadné (srov. výše). I jeho struktury se vyznačují jistou ustáleností. Např. souvětí souřadné v českém textu uměleckém i odborném obsahuje průměrně 2 věty; v textech uměleckých se však projevuje tendence k průměrnému většímu počtu vět. Věta je tu tedy relativně delší. Tyto rysy je třeba vzít v úvahu, hodnotíme-li výsledky statistické analýzy ve vztahu k typu textu.

Je samozřejmé, že statistická analýza v oblasti typologie textu může přispět k odhalení nových vztahů mezi syntaktickými strukturami i syntaktickými prvky, a to i navzájem. Za zvláštní zmínku tu ještě stojí např. kvantifikace v oblasti slovosledu a aktuálního členění, oblasti, která má důležitý význam pro poznání výstavby textu vůbec (Uhlířová, 1967).

Statistické studium výstavby textu jistého typu, které jsem tu demonstrovala na jevech lexikálních a zejména gramatických, může se týkat nejen vymezení rysů shodných i rozdílných u textů různých funkčních stylů, ale i přesnějšího vymezení textů téže stylové příslušnosti. Pokusila jsem se o to při stanovení rysů textů vědeckých a populárně vědeckých ve vztahu k textu odbornému (Těšitelová, a). Významnější rozdíly se mezi těmito texty projevily jednak v porovnání složky nominální a verbální, jednak ve frekvenci některých slovesných kategorií.

O odborných textech je obecně známo, že tu představuje výraznou složku skupina nominální. Protože se ve své stati opírám o charakteristiky statistické, přidržuji se dělení slovních druhů ve FSČ na skupinu nominální (kam se počítají substantiva, adjektiva a předložky) a verbální (slovesa, zájmena, adverbia a spojky). V textech populárně vědeckých (skupina E ve FSČ) je skupina nominální asi o 3 % silnější (60 %) než v textech vědeckých (57 %). Je to podmíněno tím, že v textech populárně vědeckých je o 2 % více substantiv a ve shodě s tím o 1 % více předložek. Vyšší procento substantiv v textech populárně vědeckých by bylo možno vysvětlit jako jistý rys stylu popularizačního: výklad tu nemusí být tak přesný jako v textu vědeckém, je možno volněji zacházet s termíny, pro zjednodušení výkladu volit synonymum, opis místo termínu apod. — Skupina verbální je naopak v textech populárně vědeckých o 2 % slabší (39 %) než v textech vědeckých (41 %). Rozdíl je způsoben nižší frekvencí zájmen v textech populárně vědeckých (6 % proti 8 % v textech vědeckých), tedy celkem výrazným prostředkem suprasegmentálním. Souvisí to zřejmě s větší akribií odkazování v textech přísně vědeckých a s jistou volností v tomto smyslu v textech populárně vědeckých.

Pokud jde o frekvenci slovesných kategorií, ukazují se mezi oběma texty výraznější rozdíly v méně častých kategoriích modu: Imperativ je v textech populárně vědeckých častější (o 3 %) než v textech vědeckých, kond. min. je naopak častější (o 36 %) v textech vědeckých než v textech populárně vědeckých. Malá doloženost těchto kategorií z hlediska statistického nedovoluje hodnotit významnost závěrů, z hlediska lingvistického lze usuzovat na jisté tendence při výstavbě těchto textů.

Jak možno soudit z několika příkladů statistických charakteristik textů populárně vědeckých a vědeckých, jsou rozdíly mezi nimi většinou málo významné a nedovolují vést mezi nimi přesnou hranici. Jde v podstatě o rysy textů odborných, doložené odchylky od nich lze označit jako jejich dva póly, vědecký a populární.

Závěr: V kvantitativní lingvistice představují texty základní výchozí jazykový materiál. Na základě zjištěných statistických charakteristik je možno stanovit (1.) textotvorné prostředky, které se podílejí na výstavbě textu jako jednotky [7]komunikačního aktu vůbec (patří k nim relativně nejfrekventovanější slova v jazyce, zejména tzv. slova formální), (2.) typologické prostředky, jimiž se vyznačuje výstavba různých textů (sem patří kromě některých plnovýznamových prostředků lexikálních prostředky gramatické, morfologické i syntaktické), texty navzájem diferencují, např. na texty umělecké a odborné, popř. dále třídí (srov. např. poměr textů vědeckých a populárně vědeckých na straně jedné a odborných na straně druhé). Při interpretaci statistických dat musíme k těmto faktorům důsledně přihlížet. Tento postup znamená pokrok nejen v kvantitativní lingvistice samé, ale může i přispět k všestrannému studiu textu, k rozvíjející se lingvistice textu.

 

LITERATURA

 

BEČKA, J. V.: Lexikální složení českých odborných textů technického zaměření. I. Praha 1973, zvl. s. 25. II. Praha 1975.

FILIPEC, J.: Rozbor odborného stylu a jeho vnitřní diferenciace. SaS, 16, 1955, s. 37—66.

FÜGER, W.: Von der quantitativen zur qualitativen Inhaltsanalyse literarischer Texte: dargelegt am Beispiel diverser Wort-Indices zu James Joyces Dubliners. ITL, 1977, č. 37, s. 40—82.

HOFFMANNOVÁ, J.: Přehled vývoje lingvistiky textu ve dvou sbornících. SaS, 42, 1981, s. 55—60.

HÖHNE-LESKA, CH.: Statistische Untersuchungen zur Syntax gesprochener und geschriebener Gegenwartssprache. Abhandlungen der Sächsischen Akademie der Wissenschaften zu Leipzig. Philol.-hist. Klasse. Band 59. Heft 1. Berlin 1975.

JEDLIČKA, AL. a kol.: Základy české stylistiky. Praha 1970.

JELÍNEK, J. - BEČKA, J. V. - TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961. (Dále FSČ.)

JIŘIČKOVÁ, J.: Ze současné lingvistiky textu. SaS, 40, 1979, s. 59—69.

KOŘENSKÝ, J.: K problému kontextově podmíněné realizace propozičních struktur. SaS, 42, 1981, s. 24—30.

LUDVÍKOVÁ, M. - KRAUS, J.: Kvantitativní vlastnosti soustavy českých fonémů. SaS, 27, 1966, s. 334—344.

MISTRÍK, J.: Exakte Typologie von Texten. München 1973.

PALEK, B.: Cross-reference. Praha 1968.

PANEVOVÁ, J. - BENEŠOVÁ, E. - SGALL, P.: Čas a modalita v češtině. AUC. Philol. Monogr. 34. Praha 1971.

PIEPER, U.: Differenzierung von Texten nach numerischen Kriterien. Folia linguistica, 2. 1975, s. 72—86.

SGALL, P.: Text a reference. SaS, 41, 1980, s. 140—145.

TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha 1974, s. 50—73.

TĚŠITELOVÁ, M.: On the frequency of function words. In: PSML, 5, 1976, s. 9—28.

TĚŠITELOVÁ, M.: Kvantitativní lingvistika. Skripta FF UK. Praha 1977.

TĚŠITELOVÁ, M.: Sémantika a statistika. SaS, 41, 1980, s. 100—105.

TĚŠITELOVÁ, M.: Využití statistických metod v gramatice. Praha 1980.

TĚŠITELOVÁ, M.: Über die Wissenschaftssprache aus quantitativer Sicht. Linguistica Generalia, II. (v tisku; a).

TĚŠITELOVÁ, M.: Über die Textanalyse aus quantitativer Sicht. Linguistica Generalia, III. (v tisku; b).

UHLÍŘOVÁ, L.: K statistickému zkoumání slovosledu. SaS, 28, 1967, s. 64—70.

UHLÍŘOVÁ, L.: K aktuálnímu členění podřadného spojení vět (konkurence vyjadřování větného a nevětného). SaS 41, 1980, s. 274—278.

VIEHWEGER, D.: Úvahy ke gramatice textu: propoziční pojetí textu proti pojetí orientovanému k jednání. SaS, 38, 1977, s. 1—18.

VIEHWEGER, D. a kol.: Probleme der semantischen Analyse. Studia grammatica XV. Berlin 1977, s. 358—377.

 

[8]R É S U M É

Zur quantitativen Textanalyse

Die Autorin weist in ihrem Beitrag nach, dass für die statistische Analyse der lexikalischen, grammatischen und auch semantischen Erscheinungen am besten der Text, bzw. der zusammenhängende Text geeignet ist, da dessen Eigenschaften und Aufbau die Satzgrenzen überschreiten. Der Text wird in Übereinstimmung mit der Texttheorie als eine kommunikative Einheit verstanden. Ein Text stellt nicht nur eine wichtige Materialquelle für die statistische Analyse dar, sondern auch einen wichtigen Faktor für die Interpretation der gewonnenen statistischen Daten.

Die Autorin demonstriert das (im I. Teil) an der Analyse des lexikalischen Textaufbaus aufgrund der häufigsten Wörter (in künstlerischen und fachlichen Texten und im Frequenzwörterbuch der tschechischen Sprache). Sie stellt fünf Wortklassen fest, die sich in unterschiedlichem Mass am Textaufbau beteiligen: (1.) Konjunktionen, (2.) Pronomina, (3.) Verben být (sein) und mít (haben), (4.) Adverbien pronominaler Herkunft, (5.) thematisch bedingte Wörter, namentlich einige Substantive.

Im II. Teil ihres Beitrags legt die Autorin aufgrund der statistischen Daten den Anteil des grammatischen Bereichs an der Typologisierung der Texte fest. (1.) Im morphologischen Bereich fällt eine bedeutende Aufgabe den Verbalkategorien, und zwar in verschiedenartigen Kombinationen in bezug auf den Modus, und den Pronominalkategorien zu. (2.) Im syntaktischen Bereich ist für den Textaufbau die sog. äussere Satzorganisation, d.h. das Verhältnis vom einfachen und zusammengesetzten Satz, von grundlegender Bedeutung. Die statistische Analyse hat hier bestimmte Gesetzmässigkeiten im Textaufbau gezeigt, und zwar auch im Hinblick auf Relationen der Strukturen innerhalb der Satzverbindung und des Satzgefüges.

Aufgrund der ermittelten statistischen Daten werden erstens die objektiven Merkmale bestimmt, durch die ein Text als Einheit des Kommunikationsaktes gekennzeichnet ist, zweitens werden Typen der Texte untereinander (in künstlerische und fachliche Texte) differenziert und dann noch näher charakterisiert, z.B. als populärwissenschaftliche und wissenschaftliche einerseits und sachbezogene andererseits.

Die angedeutete Vorgangsweise bedeutet nach der Ansicht der Autorin einen Fortschritt in der quantitativen Linguistik, sie kann aber ausserdem auch zu einem allseitigen Textstudium und zu der sich entwickelnden Texttheorie einen bedeutsamen Beitrag leisten.

Slovo a slovesnost, ročník 42 (1981), číslo 1, s. 1-8

Předchozí Redakční poznámka

Následující Ladislav Nebeský: Matematické vlastnosti větných struktur