en cz

Mluvená čeština a korpusová lingvistika

Jitka Šonková

[Articles]

Spoken Czech and corpus linguistics

Jeden z hlavních trendů v současné lingvistice je jednoznačně orientován na tvorbu jazykových korpusů elektronicky uložených dat, které umožňují studium nejrozmanitějších aspektů jazyka na rozsáhlém materiálu. Zatímco první jazykové korpusy angličtiny sestavené v 60. a 70. letech, jako např. Brown Corpus nebo jeho britská verze Lancaster-Oslo/Bergen Corpus (LOB), obsahovaly pouze 1 milión slov, dnešní korpusy jsou již mnohonásobně větší. Uveďme alespoň některé korpusy angličtiny, jako např. Birmingham Collection of English Text s 20 milióny slov, Longman/Lancaster Corpus o 30 miliónech, British National Corpus se 100 milióny slov či Bank of English obsahující právě 211 miliónů a dále rostoucí o 5 miliónů slov každý měsíc. (Literatura uvedená v závěru článku podává základní přehled o problematice tvorby korpusu.) Rychlý rozvoj korpusové lingvistiky v 80. a 90. letech je dán nejen technickým rozvojem počítačů, ale i možností převádět psaná data do elektronicky zpracovatelné podoby pomocí skeneru automaticky. Vytváření mnohamilionových korpusů, které jsou budovány pro angličtinu i pro celou řadu dalších jazyků včetně češtiny (srov. Altenberg, 1991; Čermák, 1995), je náročné jak časově, tak finančně a nebylo by možné bez spolupráce vlád, obchodních a průmyslových firem a univerzitních pracovišť.

V uvedených i v mnoha dalších případech jde o korpusy psaného jazyka, které jsou převáděny do počítače automaticky. Poněkud složitější je však situace v oblasti korpusů jazyka mluveného, jejichž počet i rozsah je nepoměrně menší. Zmiňme např. korpusy jako Survey of English Usage obsahující 0,5 miliónu mluvených slov (druhou polovinu tvoří psané texty), podobný poměr je i v Lancaster-Oslo/Bergen Corpusu, jehož mluvená část zvaná London-Lund Corpus čítá 0,5 mil. slov nahraných v letech 1953 až 1987. Některé korpusy se zaměřují na výzkum mluveného jazyka v určitých jazykových situacích, tak např. (Santa Barbara) Corpus of Spoken American English o 200 tisících slovech je založen na nahrávkách běžné konverzace, Lancaster/IBM Spoken English Corpus obsahuje 52 tisíc slov jazyka vysílaného v hromadných sdělovacích prostředcích. Disproporci mezi psanou a mluvenou částí korpusu dokumentuje i British National Corpus, v němž je mluvené angličtině věnováno „pouhých“ 10 %. Velikost tohoto korpusu (10 mil.) odpovídá jeho obsahové rozmanitosti, neboť zahrnuje monology, dialogy, telefonní rozhovory, televizní vysílání i jazyk nahraný ve školách. Podobný charakter má i mluvená část Bank of English, kde tým speciálně školených pracovníků přepisuje záznamy mluvené angličtiny rychlostí 500 tisíc slov měsíčně.

Nepoměr mezi korpusy psaného a mluveného jazyka je snadno vysvětlitelný tím, že vytváření korpusů mluveného jazyka je obecně mnohem pracnější. Nejprve je nutné pořídit kontextově vyvážené nahrávky reprezentativního vzorku mluvčích, ty přepsat do počítačem zpracovatelné formy a pak je teprve možné přistoupit k vlastnímu [191]lingvistickému zpracování korpusu. Jsou tedy korpusy mluveného jazyka nejnáročnější, patří však k nejcennějším. Je pravděpodobné, že jednou bude možné převádět mluvený jazyk do psané podoby v počítači automaticky, dnes to však pro češtinu ještě zdaleka neplatí. Zatímco pro angličtinu existují automatické kódovací či značkovací programy (tagger) již řadu let a uvedené korpusy jsou kódovány převážně automaticky, pro spisovnou češtinu jsou tyto programy zatím ve fázi vzniku a testování. Automatické kódovací programy pro mluvenou češtinu však nepokročily ani do této fáze, a proto je nutné veškeré kódování mluveného českého jazyka provádět zatím manuálně.

Práce na sestavení korpusu mluvené češtiny o rozsahu 0,5 miliónu slov byla u nás zahájena na Ústavu bohemistických studií Filozofické fakulty Univerzity Karlovy pod vedením F. Čermáka (Čermák, 1995a; Čermák, 1995b; Čermák – Králík – Pala, 1992). Tento korpus je součástí rozsáhlého projektu, jehož cílem je vytvoření Českého národního korpusu psaného a mluveného jazyka s předpokládaným rozsahem 100 miliónů slov, na němž spolupracují přední české a moravské lingvistické instituce.

Následující článek shrnuje základní rysy prvního soustavného příspěvku do korpusu mluvené češtiny. Jeho cílem bylo ověřit metody a postupy počítačového zpracování jazyka v menším rozsahu (Šonková, 1995, 1999), a proto zkoumaný materiál je označován jako subkorpus mluvené češtiny.

Vytvoření subkorpusu mluvené češtiny

Mluvčí, kteří byli vybráni pro tento výzkum, v něm participovali dobrovolně a splňovali předem stanovená kritéria. Ze sociologického hlediska byli vybráni tak, aby reprezentovali všechny společenské skupiny uživatelů českého jazyka. Podle pohlaví, věku, vzdělání a mluvní situace tvořili 16 homogenních skupin. Skupina mladších mluvčích byla ve věkovém rozmezí 18 až 35 let a starších mluvčích v rozmezí 36 až 65 let. Středoškolsky vzdělaní a v určitém oboru vyučení mluvčí tvořili jednu skupinu a vysokoškolsky vzdělaní druhou. Do výzkumu bylo zařazeno celkem 50 mluvčích, z toho 29 mladších a 21 starších, 26 mužů a 24 žen, 28 mluvčích se středoškolským a 22 s vysokoškolským vzděláním. Komunikační situace byla rozdělena na dva typy. Všichni mluvčí byli nahráni jednak ve formálním a jednak v neformálním rozhovoru, jak byly dvě komunikační situace označeny.

Ve formálním rozhovoru odpovídali na dvanáct předem stanovených otázek obecného charakteru z oblasti vzdělání a povolání, které byly kladeny nahrávající osobou, např. „Co si myslíte o dnešní škole, když ji srovnáte se školou dřívější?“ Otázky byly formulovány tak, aby stimulovaly všechny mluvčí k co nejpřirozenější mluvené odpovědi, ne nutně spisovné. Znění otázek nebylo nahráváno, ani nebylo do výzkumu nijak zahrnuto. Neformální rozhovory byly vytvořeny nahráváním dialogů mluvčích, kteří se vzájemně znali, v domácí situaci, obvykle přátel nebo manželských dvojic. Téma rozhovoru nebylo nijak určeno a mluvčí hovořili obvykle o věcech aktuálních v jejich životě, o dětech, známých a podobně. Neformální rozhovory byly vždy jen dialogy pozvaných mluvčích a nikdy nešlo o rozhovor s nahrávající osobou, která však byla dialogu a nahrávání přítomna. Účel – výzkum jazykového úzu mluv[192]čích – však nebyl nikdy předem zmíněn. Vzhledem k tomu, že pro splnění cílů této práce bylo na místě zpracovat homogenní vzorek mluvčích, zvolili jsme pro první fázi tohoto projektu mluvčí, kteří prožili značnou část svého života v Praze.

Magnetofonové záznamy, které byly základem tohoto výzkumu, byly pořízeny v časovém rozpětí let 1989–1990. Celkem bylo zaznamenáno 70 rozhovorů, což bylo 16,5 hodiny mluveného jazyka.

Během let 1991–1992 byly všechny nahrávky přepsány a uloženy do počítače jako textové soubory. Přepisem všech nahrávek vznikl lineární text s celkovým počtem více než 127 000 slov. Tento text, obsahující různé množství slov od jednotlivých mluvčích, byl normalizován tak, aby od jednotlivých mluvčích zahrnoval stejný počet slov. Vzniklý textový subkorpus obsahoval 46 967 slov, která byla seskupena do 40 370 tvarů. Tento subkorpus byl podroben frekvenční analýze.

Kódování slov a kódovník

V rozmezí let 1993–1994 byl subkorpus mluvené češtiny o 40 370 tvarech slov označen systémem kódů podle kódovníku sestaveného F. Čermákem. Před vlastním kódováním byla nejprve všechna ustálená víceslovná spojení, jako idiomy, frazémy a analytické formy sloves (např. řekl by, šel jsem), seskupena. Znamená to, že víceslovné výrazy byly spojeny tak, aby dále vystupovaly vždy společně. Každému tvaru bylo přiřazeno spisovné a stylové lemma, např.

	tvar z textu:	řikali sme
	stylové lemma:	řikat
	spisovné lemma:	říkat

V další fázi byly všechny slovní jednotky, jednoslovné i seskupené, okódovány v jednoúčelovém programu EDITIN (Savický, 1992, 1994), který obsahoval jednotlivé položky kódovníku jako svou nabídku a byl vybaven celou řadou bezpečnostních rysů sledujících úplnost kódování, konzistenci ukládaných dat a optimalizaci nabídky již okódovaných tvarů. Díky uvedeným vlastnostem programu bylo zaručeno, že všechna okódovaná slova obsahovala vždy všechny kódy a uložení neúplného kódového označení bylo automaticky zabráněno.

Kódovník zahrnoval všech deset slovních druhů: podstatná jména, přídavná jména, zájmena, číslovky, slovesa, příslovce, předložky, spojky, citoslovce a částice; dále idiomy a frazémy a také kategorii „jiné“, kam byly řazeny cizojazyčné citátové výrazy, neslovní zkratky a vlastní jména. Každé slovo bylo též označeno indexem stylu, na základě kterého byla slova dělena do pěti kategorií: 1. výrazy společné spisovnému i nespisovnému jazyku (nemající jinou morfologickou variantu), 2. výrazy spisovné (v jazyce používané jako psané i mluvené, týkající se kultivované, prestižní, popř. oficiální variety jazyka, označované též jako standardní) (Čermák, 1994; Sgall et al., 1992), 3. výrazy nespisovné (v jazyce používané jako mluvené, zvané též substandardní) (Sgall et al., 1992), 4. knižní a 5. vulgární. Textová slova byla kódována v průměru 8 indexy na slovo, takže bylo přiřazeno celkem 300 000 indexů.

[193]Databázové zpracování

Všech 70 okódovaných souborů bylo importováno do databázového programového prostředí FoxPro. Databázová reprezentace představovala předposlední formu kódovaných dat na cestě od zpracovaného textu k frekvenčnímu slovníku a shrnujícím grafům a tabulkám. Vzhledem k velké šíři výzkumných otázek, na které jsme v relační databázi hledali odpověď, zvolili jsme interaktivní způsob zpracování bez tvorby specifických programů vykonávajících jednotlivé úkoly. Jazyk FoxPro nám tento subsystém dotazů, tzv. Query, umožňoval pohodlně aplikovat. Důležitým rysem FoxPro je flexibilita databázového systému při práci s českými znaky. Poměrně snadno bylo možné dosáhnout českého abecedního řazení, které bylo v našem případě pro tvorbu frekvenčních slovníků zásadní.

Obecná charakteristika subkorpusu mluvené češtiny

Zpracovávaný subkorpus obsahoval celkem 40 370 tvarů slov, které byly podle jednotlivých sociolingvistických kategorií distribuovány následujícím způsobem.

Slova od mužů a žen byla velmi rovnoměrně zastoupena. V celém subkorpusu bylo 19 971 slov použitých muži a 20 399 slov použitých ženami. Do výzkumu bylo zahrnuto 24 093 slov od mladších mluvčích a 16 277 slov od mluvčích starších. Od středoškolsky vzdělaných mluvčích pocházelo 24 507 slov a od mluvčích s vysokoškolským vzděláním 15 863 slov. Ve formálních rozhovorech bylo použito dvakrát více slov než v neformálních. Souvisí to se skutečností, že v neformálních rozhovorech byla vždy nahrávána dvojice mluvčích, a tím klesl počet souborů reprezentujících neformální rozhovory na polovinu. Ve formálních rozhovorech bylo použito 27 091 slov a v neformálních 13 279 slov.

Nejfrekventovanějšími slovními druhy podle počtu tvarů slov byla slovesa (17 %), zájmena (16 %) a částice (15 %). Dále následovala podstatná jména (13 %) a spojky (12 %). Mezi slovní druhy s nižší frekvencí patřila příslovce (8 %), předložky (6 %), přídavná jména (5 %), další slovní druhy a frazémy (5 %). Nejméně frekventovaná byla citoslovce (1 %), číslovky (1 %) a jiné (1 %), kam byly řazeny cizojazyčné citátové výrazy, neslovní zkratky a propria. Počet spisovných lemmat se v rámci jednotlivých slovních druhů vyskytoval ve výrazně jiném poměru. Největší počet lemmat měla substantiva (28 %), následovala slovesa (22 %) a idiomy a frazémy (16 %). Nejnižší počet lemmat byl naopak zaznamenán u citoslovcí (0,9 %), předložek (1 %) a zájmen (1,3 %).

Nadpoloviční většina slov (58 %) byla společných spisovnému i nespisovnému jazyku. Dalších 38 % bylo charakterizováno jako slova nespisovná a pouze 4 % jako slova spisovná. Knižní i vulgární slova měla mizivé zastoupení.

Analýzou subkorpusu mluvené češtiny podle stylového indexu s uvažováním sociolingvistických kategorií bylo zjištěno, že mezi jednotlivými skupinami existovaly jen drobné odchylky. Pokud jde např. o nespisovná slova, mladší mluvčí jich používali více než starší, středoškoláci více než vysokoškoláci, nespisovných slov bylo více v neformálních rozhovorech. Více spisovných slov bylo nalezeno u vysokoškol[194]sky vzdělaných mluvčích a ve formálních rozhovorech. Přestože lze pozorovat tyto rozdíly mezi relativní četností slov jednotlivých stylů, směrodatné odchylky relativních četností byly malé a nepřesahovaly 1,7 %. Z hodnoty směrodatné odchylky je zřejmé, že zastoupení společného, spisovného a nespisovného stylu se v závislosti na sociolingvistických indexech významně neměnilo.

S využitím kódů bylo sestaveno 33 frekvenčních a abecedních slovníků řazených podle spisovného a stylového lemmatu a lexikálních seznamů tvarů slov řazených podle jednotlivých slovních druhů a deklinačních či konjugačních typů.

Na základě vytvořených slovníků byl subkorpus mluvené češtiny analyzován podle frekvence výskytů jednotlivých slov a jim korespondujících spisovných a stylových lemmat. V subkorpusu se vyskytlo celkem 4311 různých spisovných lemmat (4177 lemmat bez uvažování slovních druhů) a 801 lemmat frazémů. Lingvisté obvykle řadí slova podle frekvence jejich výskytu do tří různých skupin: slova s nejvyšší, střední a nízkou frekvencí. Prvních 14 nejfrekventovanějších spisovných lemmat se ve zkoumaném subkorpusu vyskytlo celkem 12 680krát. Šlo o následující spisovná lemmata: 1. ten, 2. být, 3. a, 4. že, 5. no, 6. já, 7. mít, 8. tak, 9. v, 10. jako, 11. na, 12. tedy, 13. ale, 14. tam. Skupina slov se střední frekvencí pak odpovídala druhé třetině subkorpusu. Jednalo se o 120 slovních lemmat s frekvenčním pořadím 15 až 134, která byla zaznamenána celkem 12 883krát. Za poslední třetinu subkorpusu byla odpovědná skupina nejméně frekventovaných slov, což se týkalo 4043 slovních lemmat s frekvenčním pořadím 135 a vyšším, která se zde vyskytla celkem 12 820krát.

Porovnáním slov s nejvyšší frekvencí ve frekvenčním slovníku všech slov podle spisovného lemmatu a ve frekvenčním slovníku podle stylového lemmatu jsme zjistili, že vytvářejí poměrně vymezené pásmo. Jejich frekvence plně souvisí s charakterem mluvených projevů. Patřila sem hlavně zájmena, slovesa být a mít, spojky a částice. Z hlediska funkce šlo tedy především o výrazy ukazovací a odkazovací, o textové konektory a o sponové a existenční sloveso být. Zjistili jsme, že první nejčastější lemma ten tvořilo 7 % celého subkorpusu mluvené češtiny.

Analýza četnosti spisovných lemmat přinesla řadu zajímavých poznatků z oblasti matematické lingvistiky. Jedním ze zákonů matematické lingvistiky, který platí pro skupinu nejfrekventovanějších slov, je první Zipfův zákon (Zipf, 1949), který říká, že rank slova (r) násobený jeho četností (f_r) je přibližně konstantní (c):

r • f_r = c

Pro ověření tohoto zákona jsme skupinu prvních 14 nejfrekventovanějších slov ze subkorpusu mluvené češtiny podrobili analýze. Platnost Zipfova zákona se potvrdila, což mimo jiné indikuje, že velikost subkorpusu mluvené češtiny byla pro náš účel – ověřit postupy a metody práce na menším rozsahu materiálu – dostatečná.

Substantiva

Frekvenční analýzou bylo zjištěno, že substantiva ženského rodu (44 %) převládala nad substantivy rodu mužského (38 %) a středního (18 %). Vysvětlení vyšší frekvence feminin jsme hledali v rodu substantiv použitých v otázkách kladených [195]mluvčím, které následně mohly vyvolat větší frekvenci substantiv ženského rodu v jejich odpovědích. Tento předpoklad se však nepotvrdil, neboť frekvence substantiv rodu ženského převažovala v obou typech rozhovoru. Ve formálních rozhovorech bylo zaznamenáno 38 % maskulin, 42 % feminin a 20 % neuter, v neformálních rozhovorech 40 % maskulin, 46 % feminin a 14 % neuter. V neformálních rozhovorech byla četnost feminin dokonce vyšší než v rozhovorech formálních. Tento výsledek byl navíc podpořen poměrem rodů u adjektiv, kde feminina patřila k nejfrekventovanějším nejen v subkorpusu mluvené češtiny, ale i ve Frekvenčním slovníku věcného stylu (Těšitelová a kol., 1983). Podle očekávání singulár (68 %) převládal nad plurálem (30 %), duál a kolektiva byla velmi řídká. Nejfrekventovanějším pádem byl Nsg, dále Asg a Npl, což odpovídá užití substantiv ve funkci subjektu (23 %) a predikátu (40 %). Nsg byl nejfrekventovanějším pádem nejen u substantiv (25 %), ale i u adjektiv (42 %) a zájmen (30 %).

V rámci substantivních typů maskulin životných se jako nejfrekventovanější deklinační typ projevil podtyp I.A vzor „pán“, který tvořil 57 % všech maskulin životných. Po něm následoval podtyp I.B vzor „muž“ zastupující 26 % maskulin životných. Bylo nutné vzít v úvahu vysokou frekvenci přesahujících tvarů lemmatu lidé. (V tomto a v dalších případech, kdy procentuální součet není roven 100 %, nebyly zde některé kategorie uvedeny.)

Převládající většina (90 %) maskulin neživotných se řadila k paradigmatu podtypu A vzor „hrad“ a pouze 10 % k podtypu B vzor „stroj“.

Nejvíce zastoupeným typem feminin byl typ I vzor „žena“, ke kterému patřilo 49 % všech feminin, následoval typ II vzor „růže“ s 19 %. Součtem frekvencí všech substantiv, která měla skloňování podle vzoru „kost“, jsme zjistili, že vzhledem k vysoké frekvenci lemmat lidé a děti tento typ představoval 25 % všech feminin. U vzoru „růže“ se jako jednoznačně nejčastější ukázala skupina slov se slovotvorným formantem -c(e), která zde tvořila 89 %. U deklinačního typu III vzor „kost“ byl značně frekventován slovotvorný typ zakončený na -ost, který v rámci tohoto vzoru tvořil 65 %. Kolísání mezi vzory „píseň“ a „kost“ se projevilo jen omezeně.

U neuter byl shledán jako nejproduktivnější typ III vzor „stavení“, který zastupoval 48 % všech neuter s nejčastější finálou základu -n-. Druhý nejvíce frekventovaný byl typ I vzor „město“, k němuž se řadilo 37 % všech neuter. U substantiv středního rodu bylo třeba počítat s přesahujícími a značně frekventovanými tvary lemmatu dítě, které tvoří plurálové tvary podle ženského paradigmatu. Jestliže jsme odečetli plurálové tvary lemmatu dítě, zjistili jsme, že typ II vzor „moře“ byl zastoupen 4 % všech neuter a podskupina tohoto typu „kuře“ tvořila 7 % všech neuter.

Porovnáním deklinačních formantů jednotlivých typů, které vyplynuly z naší analýzy, s jejich podobou ve spisovném jazyce, bylo zjištěno, že převládající většina byla shodná. Jedním ze zaznamenaných rozdílů byl výskyt krátkých formantů v Dpl u maskulin životných i neživotných, kde se formant -um vyskytl v 39 %. Dále šlo o Isg neuter III. typu vzor „stavení“, v němž byly formanty -i-m zachyceny v 85 %.

Druhý významný rozdíl se projevil v Ipl, v němž se u maskulin životných podtypu I.A vzor „pán“ a maskulin neživotných podtypu A vzor „hrad“ jiný než deklinač[196]ní formant -ama nevyskytl. Také u ostatních deklinačních typů nespisovné formanty -ama, -ema a -ma jednoznačně převládaly nad spisovnými.

Porovnáním poměru deklinačních formantů tvarů Ipl všech rodů z kvantitativního hlediska jsme zjistili, že z celkového počtu 63 tvarů bylo 55 nespisovných a 8 spisovných, což představuje 87 % nespisovných zakončení.

Z kvalitativního pohledu byly deklinační formanty Ipl ve tvarech všech tří rodů a všech substantivních deklinačních typů identické. Tento jev je možné charakterizovat jako meziparadigmatickou homomorfii. Současně to svědčí o ztrátě rozdílu v rodu substantiv v Ipl (Sgall – Hronek, 1992).

Adjektiva

V zastoupení rodů u adjektiv převládala feminina (38 %), následovala maskulina (36 %) a neutra (24 %). Poměr čísla u adjektiv se projevil jako 70 % singuláru ku 30 % plurálu. Nejčastějšími pády adjektiv byly Nsg, Npl a Asg. Většina adjektiv nalezených v našem subkorpusu se skloňovala podle paradigmat tvrdých (82 %) a pouze 17 % podle paradigmat měkkých. Jmenné tvary přídavných jmen tvořily 1 % všech adjektiv a přídavná jména přivlastňovací méně než 1 %.

Porovnáním deklinačních formantů měkkého typu získaných frekvenční analýzou s jejich podobou ve spisovném jazyce bylo zjištěno, že většina byla shodná. Měkký typ adjektiv nebyl dostatečně frekventován, takže ani výskyt některých nespisovných formantů, např. v Isg nebo Ipl, nebylo možné statisticky doložit.

Adjektiva tvrdého typu poskytla dostatek materiálu pro frekvenční analýzu, a tak poměr výskytu nespisovných a spisovných deklinačních formantů byl statisticky významnější. Šlo zejména o pády, kde byla zaznamenána nejvyšší frekvence, jako např. Nsg neuter, kde se formant -ý-Ø vyskytl 208krát, což je 95 % všech formantů neuter v tomto pádě. U maskulin životných v Nsg formant -ej-Ø tvořil 92 % a v Npl formant -ý-Ø zastupoval 79 % všech formantů tohoto rodu, čísla a pádu. Dalším příkladem je Nsg maskulin neživotných s formantem -ej-Ø, který se vyskytl v 85 % těchto výskytů. U feminin formant -ý-Ø tvořil v Npl 89 % a v Apl 87 % všech výskytů v těchto pádech.

Ze srovnání deklinačních formantů tvrdých adjektiv v Npl všech rodů vyplynulo, že zde převažoval formant -ý-Ø. Ze všech 240 tvarů tvrdých adjektiv, které byly v Npl zaznamenány, 204 bylo zakončeno deklinačním formantem -ý-Ø, což tvoří 85 %. Výskyt stejného formantu ve všech třech rodech opět představuje meziparadigmatickou homomorfii.

Deklinační formanty tvrdého typu přídavných jmen se lišily od kodifikovaných v daleko větší míře než u měkkého typu adjektiv a u substantiv. Nespisovné deklinační formanty se ve tvarech adjektiv tvrdých vyskytly v 86 % všech tvrdých adjektiv.

Zájmena

Zájmena patřila k nejméně homogenním druhům slov. Morfologická nehomogennost zájmen zahrnovala jednak přítomnost či nepřítomnost kategorie rodu, mnohé deklinační typy, neúplná paradigmata i tvary izolované.

[197]Zájmena bezrodá tvořila 24 % a rodová 75 %. Zastoupení neuter bylo v subkorpusu mluvené češtiny výraznější (35 %) vzhledem k vysoké frekvenci ukazovacího zájmena to. Maskulina i feminina byla vyrovnaná (po 20 %). Z hlediska frekvence čísla u zájmen převládal singulár (58 %), následoval plurál (18 %) a u 24 % zájmen číslo nešlo určit. Nejčastějším pádem zájmen byl Nsg, který tvořil 30 % všech pádů zájmen. Z analýzy rozložení deklinačních typů zájmen vyplynulo, že 50 % všech zájmen mělo skloňování zájmenné tvrdé, což opět souviselo s vysokou frekvencí zájmena ten. Dalších 16 % pokrývala zájmena bezrodá, zájmena se skloňováním zájmenným měkkým tvořila 15 % a zájmena se skloňováním adjektivním tvrdým 13 %. Ostatní typy byly řídké.

Většina tvarů zájmen bezrodých a zájmen rodových se skloňováním zájmenným varianty v mluveném jazyce neměla. Toto však neplatilo pro Ipl, kde u zájmen my, ten, on, ona, ono, náš a všechen byly zaznamenány jejich nespisovné podoby. Podobně jako tomu bylo u předchozích slovních druhů, ze všech 35 výskytů těchto zájmen v Ipl pouze 2 tvary byly spisovné (těmi). To lze vyjádřit též jako 94% převahu nespisovných zakončení Ipl uvedených deklinačních typů (I a IIa).

Mezi další v mluveném jazyce variantní patřily tvary Isg zájmen kdo a co, které se v 18 případech vyskytly pouze ve zkrácených formách kym, čim. Z našeho výzkumu dále vyplynulo, že tvary zájmen on, ona, ono byly v 98 % tvarů vysloveny s protetickým v-.

Frekvenční analýzou zájmen se skloňováním adjektivním tvrdým (IIb1) jsme zjistili, že u maskulin životných se nespisovná zakončení vyskytla v 85 %, u maskulin neživotných v 93 %, u feminin v 93 % a u neuter v 91 %. Budeme-li neutrální tvary společné spisovnému i nespisovnému jazyku považovat konzervativně za spisovné, pak se u feminin nespisovné tvary vyskytly v 54 %. Ze srovnání všech tvarů zájmen tohoto typu bez rozlišení rodu vyplývá, že 76 % tvarů bylo nespisovných a 24 % spisovných.

Číslovky

Frekvenční analýza číslovek ukázala, že nejpočetnější byly číslovky základní, které včetně víceslovných tvořily 70 %. To odpovídá zjištění, že nadpoloviční většina (52 %) číslovek byla bezrodá a téměř u poloviny (48 %) nebylo možné určit gramatické číslo. Frekvence pádů byla v korelaci se zastoupením číslovek základních pět a výše, neboť akuzativ a nominativ jako nejčastější pády číslovek nalezených v našem subkorpusu jsou právě těmi, které charakterizují dvoutvarovou flexi. Tento specifický deklinační typ byl současně typem nejfrekventovanějším a zahrnoval 33 % všech číslovkových výskytů. Na základě naší analýzy lze konstatovat, že 74 % číslovek mělo tvary společné spisovnému i nespisovnému jazyku nebo tvary spisovné.

Slovesa

Analýzou sloves byl zjištěn poměr opozice určitosti a neurčitosti sloves ve prospěch tvarů určitých, které tvořily 87 % a tvary neurčité jen 13 %. Z tvarů neurčitých infinitivy zastupovaly 13 % všech sloves, výskyt přechodníků a participií pasíva byl [198]extrémně řídký. Zvratná slovesa byla zastoupena 17 % všech sloves, z toho 14 % bylo zvratných sloves nesložených a 3 % sloves zvratných složených. Slovesa vidu nedokonavého převládala nad dokonavými v poměru 79 % ku 20 %. Jako nejčetnější byla zaznamenána 3. os. sg (37 %), následovala 1. os. sg (18 %) a 3. os. pl (17 %). V kategorii času byl nejvíce frekventován prézens (61 %), následovalo préteritum (22 %) a futurum (2 %). Tvary, kde čas nebylo možné určit, tvořily 15 %. Z hlediska způsobu převládal nepříznakový indikativ, kondicionál se vyskytl převážně jen v prézentu a imperativ byl velmi řídký, jejich poměr byl 92 % ku 7 % ku 1 %. Aktivní vyjadřování jednoznačně převládalo nad pasivním v poměru 82 % ku 3 % a u zbylých 15 % sloves rod nebylo možné určit. Nejfrekventovanější slovesnou kategorií byl indikativ prézentu aktiva, který zastupoval 45 % všech tvarů. Jako druhý nejčastější se projevil indikativ préterita aktiva s 21 %. Z pohledu frekvence časů, do určité míry i způsobů a rodů, je možné tento stav chápat pouze jako konkurenci mezi časem přítomným a minulým nebo mezi indikativem prézentu aktiva a indikativem préterita aktiva. Tyto tvary tvořily v subkorpusu mluvené češtiny 66 % všech slovesných tvarů.

Z rozčlenění sloves podle konjugačních typů vyplynulo, že nejfrekventovanější skupinou byla slovesa nepravidelná, která tvořila 38 % všech sloves. Z pohledu slovesných tříd patřila mezi nejčastější slovesa 4. třídy, která zastupovala 21 % a následovala slovesa 5. třídy, kam bylo zařazeno 17 % všech sloves. Nejčastější byl slovesný vzor „dělá“, jenž reprezentoval 17 % všech sloves, a dále vzory „prosí“ s 11 % a „kupuje“ s 6 % všech sloves. Frekvenční analýzou slovesných lemmat bylo zjištěno, že zatímco u nepravidelných sloves na jedno lemma připadalo 203 tvarů, u vzoru „dělá“ 4 tvary, u vzoru „prosí“ 3 tvary a u vzoru „kupuje“ již jen 2 tvary.

V 1. os. pl kondicionálu přítomného převládal tvar bysme, který byl zaznamenán v 93 % všech případů, zatímco tvar bychom pouze v 7 % výskytů. V 1. os. sg kondicionálu přítomného žádné kolísání prokázáno nebylo a ve všech tvarech zde byla nalezena spisovná podoba bych.

Porovnáním tvarů, které měly varianty ve většině slovesných tříd, jsme zjistili, že v ind. prézentu aktiva šlo o 1. os. sg a 3. os pl. Ve 3. slovesné třídě v 1. os. sg formant -j-Ø-u tvořil 96 % a formant -j-Ø-i jen 4 % těchto případů. Ve 3. os. pl byl poměr méně vyhraněný a formant -j-Ø-ou zastupoval 78 %, zatímco formant -j-Ø-í 22 % těchto výskytů. Tato skutečnost podpořila tvrzení, že „proces stylové neutralizace hovorových variant probíhá rychleji v 1. os. sg než ve 3. os. pl ind. préz.“ (MČ, 2, 1986, s. 458).

Velmi zajímavý závěr vyplynul z analýzy sloves 4. třídy, kde se u všech vzorů jak v 1. os. sg, tak ve 3. os. pl ind. prézentu aktiva projevily výrazné tendence. V 1. os. sg naprosto převládala krátká zakončení -i-m, která byla zachycena v 99 % výskytů. Ve 3. os. pl šlo u všech tří typů pouze o konkurenci mezi konjugačními formanty -ě(e)j-Ø a -Ø-í, jejichž zastoupení lze vyjádřit poměrem 77 % ku 23 %. Zakončení -ě(e)j-í, které je kodifikovaným formantem vzoru „sází“, zde bylo zaznamenáno pouze jednou (vytvářejí).

[199]Pro 5. slovesnou třídu byla ve 3. os. pl ind. prézentu aktiva charakteristická zakončení -aj-Ø, která tvořila 88 % těchto výskytů.

Také skupina nepravidelných sloves měla v 1. os. sg a 3. os. pl ind. prézentu aktiva varianty a četná zakončení zde byla krácena. U slovesa mít tvořily tvary mám 65 % (včetně záporu) a tvary mam 35 %. U slovesa vědět bylo v 1. os. sg všech 108 tvarů včetně záporných vysloveno krátce jako vim. Krátké tvary převládaly také ve 3. os. pl ind. prézentu aktiva. U slovesa mít byl tvar maj zastoupen 89 %, tvar mají 9 % a tvar maji 2 % výskytů. Frekvence slovesa chtít a vědět byla v 3. os. pl ind. prézentu aktiva podstatně nižší a poměry tvarů chtěj a chtěji (13 ku 1) a vědí a vědi (7 ku 3) nepovažujeme za statisticky významné.

Pokud jde o tvary příčestí činného v mužském rodě zakončené na souhlásku, tendence vynechávat -l-ovou část konjugačního formantu u sloves 1. a 2. třídy převládala a např. u vzoru „tiskne“ tvořila 78 % těchto výskytů.

Z uvedeného srovnání vyplynulo, že v zakončení slovesných tvarů v běžně mluveném i spisovném jazyce existuje značná shoda. Tvary, v nichž se varianty projevily, byly spíše izolované. Svědčí to o značné stabilitě sloves v češtině, která je kromě jiného ovlivněna i relativně jednoduchým systémem slovesných časů. Ze srovnání s ostatními ohebnými druhy slov je patrné, že vyrovnání slovesného systému v jazyce spisovném a mluveném a následné zjednodušení systému, které na rozdíl od jmen v období obrození v jazyce proběhlo, jednoznačně napomohlo ustálení výrazových prostředků.

Závěr

Prokázali jsme, že korpusové zpracování mluvené češtiny založené na morfologické analýze tvarů slov pomocí jednoúčelových programů přináší celou řadu nových poznatků v oblasti mluveného jazyka. Nicméně je třeba zdůraznit, že jde o počáteční fázi počítačového zpracování mluvené češtiny. Použitá metodika manuálního kódovaní velkého množství slov je časově velmi náročná a reprezentuje prvořadou překážku ve tvorbě korpusu mluveného českého jazyka na cestě ke korpusům, jejichž velikost by byla srovnatelná s korpusy světových jazyků popsanými v úvodu.

Z našeho výkumu zkoumaného subkorpusu vyplynul následující shrnující závěr. Slova společná spisovnému i nespisovnému jazyku tvořila dvě třetiny. Slova nespisovná zastupovala zhruba jednu třetinu a slova pouze spisovná více než 4 % všech slov. V závěrečném shrnutí lze tedy mluvenou češtinu analyzovanou v této práci charakterizovat jako jazyk, v němž byly kombinovány prvky společné spisovnému i nespisovnému jazyku, prvky nespisovné a prvky spisovné v poměru 58 % ku 38 % ku 4 %. Toto kvantitativní rozčlenění je novým, dříve neznámým výsledkem našeho výzkumu.

Ukázka

Ukázka části souboru obsahujícího neformální rozhovor tak, jak vypadal na výstupu z kódovacího programu EDITIN:

	[200]čili,čili,čili,8,1,1,2, , , , , , ,0,M,V,A,N
	je,bejt,být,5,2,7,3,3,1,–,1,–,1,0,M,V,A,N
	příčina,příčina,příčina,1,1,4,0,3,1,1,1, , ,0,M,V,A,N
	v,v,v,7,1,3,6,1, , , , , ,0,M,V,A,N
	čem,co,co,3,5,0,5,1,6,1, , , ,0,M,V,A,N
	no,no,no,0,1,5,1,1, , , , , ,1,Z,V,B,N
	těžko_říct,těžko_říct,těžko_říct,F,5,1, , , , , , , ,1,Z,V,B,N
	já,já,já,3,1,0,5,1,1,1, , , ,1,Z,V,B,N
	myslela_sem,myslet,myslet,5,2,5,–,1,5,–,2,3,1,1,Z,V,B,N
	no_tak,no_tak,no_tak,0,5,9,1,1, , , , , ,1,M,V,A,N
	je,bejt,být,5,0,7,9,3,1,–,1,–,1,0,M,V,A,N
	to,ten,ten,3,4,0,4,1,1,1, , , ,0,M,V,A,N
	komplexní,komplexní,komplexní,2,1,0,5,1,4,1,1,– ,2,0,M,V,A,N
	je,bejt,být,5,2,7,9,3,1,–,1,–,1,0,Z,V,B,N
	to,ten,ten,3,4,0,4,1,1,1, , , ,0,Z,V,B,N
	komplexní,komplexní,komplexní,2,1,0,5,1,4,1,1,– ,2,0,Z,V,B,N
	ty,ty,ty,3,1,0,5,1,1,1, , , ,0,M,V,A,N
	myslela_si,myslet,myslet,5,2,7,2,2,5,–,2,3,1,1,M,V,A,N
	třeba,třeba,třeba,0,2,5,4,1, , , , , ,1,M,V,A,N
	tim_že,to_že,to_že,8,4,3,2, , , , , , ,1,M,V,A,N
	nemaj,mít,mít,5,2,6,–,6,1,–,1,–,2,1,M,V,A,N
	byt,byt,byt,1,1,4,0,2,1,4,2, , ,0,M,V,A,N
	jó,jo,jo,9,1,2, , , , , , , ,1,Z,V,B,N

Ukázka přepsaného textu z jednoho neformálního rozhovoru:

A:	čili je příčina v čem ?
B:	no, těžko říct, já sem myslela
A:	no tak je to komplexní
B:	je to komplexní
A:	ty si myslela třeba tim, že nemaj byt
B:	jó jistě
A:	no tak to je jenom částečný
B:	né jenom byt
A:	nemaj dost peněz
B:	nemaj ekonomické podmínky, že jo, takže zlepšit ekonomické podmínky a udělat tedleten pokus, zlepšit
A:	Liz Taylorová prostě měla snad ekonomický podmínky dostatečný a dokázala se rozvíst asi vosumkrát nebo kolik
B:	no tak ta to zase asi dělala z ňáký zábavy
A:	no vidiš, takže prostě, že jo, tak to je velmi protikladný, že jo, no
B:	taky nebyla vona nikdy vodkázaná
A:	a přitom je zajímavý, že právě nejvíc lidí a nejvyšší rozvodovost je u těch lidí, který za prvé maji určitou formu povolání, že jo, takovou velice atraktivní a dále teda to, že sou strašně bohatý
B:	to je strašně úzká skupina lidí a ty by se mohli vynechat, že jo
A:	jo, ty se můžou vynechat
B:	no tak, dejme tomu
A:	no to nevim, jesli se mužou vynechat
B:	no tak to je speciálni skupina lidí a tak jako brát to tak, že jako herec tady hraje ve svém životě několik rolí, že jo, no tak dobře, to nemůžeme brát jako takový gró ve společnosti, tamtěch vostatních je daleká většina, čili já si myslim, že pro
[201]A:		tak to by snad stačilo
B:	máš k tomu co dodat? nemáš
A:	che mám
B:	myslim, že sem vyčerpala
A:	ty si hlavně vyčerpala mě, che che a sebe taky

LITERATURA

AARTS, J. – MEIJS, W. (ed.): Theory and Practice in Corpus Linguistics. Rodopi, Amsterdam 1990.

AIJMER, K. – ALTENBERG, B. (ed.): English Corpus Linguistics. Longman, London – New York 1991.

ALTENBERG, B.: A bibliography of publications relating to English computer corpora. In: S. Johansson – A. Stenstrom (ed.), English Computer Corpora. Monton de Gruyter, Berlin – New York 1991.

BAUER, L.: Introducing Linguistic Morphology. Edinburgh University Press, Edinburgh 1988.

BIBER, D.: Variation Across Speech and Writing. Cambridge University Press, Cambridge 1988.

ČERMÁK, F.: Jazyk a jazykověda. Pražská imaginace, Praha 1994.

ČERMÁK, F.: Jazykový korpus: Prostředek a zdroj poznání. SaS, 56, 1995a, s. 119–140.

ČERMÁK, F.: Komputační lexikografie. In: Manuál lexikografie. Ed. F. Čermák – R. Blatná. Praha 1995b.

ČERMÁK, F. – KRÁLÍK, J. – PALA, K.: Počítačová lexikografie a čeština. SaS, 53, 1992, s. 41–48.

FRANCIS, W. N. – KUČERA, H.: Frequency Analysis of English Usage: Lexicon and Grammar. Houghton Mifflin, Boston 1982.

HRONEK, J.: Obecná čeština. UK, Praha 1972.

JELÍNEK, J. – BEČKA, J. V. – TĚŠITELOVÁ, M.: Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha 1961.

JOHANSSON, S. – STENSTROM, A. (ed.): English Computer Corpora. Selected Papers and Research Guide. Mouton de Gruyter, Berlin – New York 1991.

KUČERA, H.: Language variability, rule interdependency and the grammar of Czech. Linguistic Inquiry, 4, 1973, s. 499–521.

KUČERA, H. – FRANCIS, W. N.: Computational Analysis of Present-day American English. Brown University Press, Providence, R. I. 1967.

LABOV, W. D.: The Social Stratification of English in New York City. Center for Applied Linguistics, Washington, D. C. 1966.

MATTHEWS, P. H.: Morphology. Cambridge University Press, Cambridge 1991.

Mluvnice češtiny, 2. Academia, Praha 1986 (zkr. MČ).

SAVICKÝ, P.: EDITIN – Programové prostředí pro kódování korpusu mluvené češtiny. Praha 1992.

SAVICKÝ, P.: Soubor programů pro manipulaci a archivaci kódovaných souborů v korpusu mluvené češtiny. Praha 1994.

SGALL, P. – HRONEK, J.: Čeština bez příkras. H&H, Praha 1992.

SGALL, P. – HRONEK, J. – STICH, A. – HORECKÝ, J.: Variation in Language: Code Switching in Czech as a Challenge for Sociolinguistics. John Benjamins Publishing Company, Amsterdam – Philadelphia 1992.

ŠONKOVÁ, J.: Lingvistické zpracování jazyka na počítači: morfologie mluvené češtiny I., II. UK, Praha 1995. Kandidátská disertační práce.

ŠONKOVÁ, J.: Gender-based results of a quantitative analysis of spoken Czech: Contribution to the Czech national corpus. In: M. H. Mills (ed.), Slavic Gender Linguistics. John Benjamins Publishing Company, Amsterdam – Philadelphia 1999, s. 183–200.

TĚŠITELOVÁ, M. a kol.: Frekvenční slovník češtiny věcného stylu. Academia, Praha 1983.

ZIPF, G. K.: Human Behavior and the Principle of Least Effort. Addison-Wesley, Cambridge 1949.

[202]R É S U M É

Spoken Czech and corpus linguistics

The analysis presented in this article was undertaken to describe morphology of the spoken Czech language. To accomplish this task, we analyzed a corpus of texts of 40,370 word counts that was obtained by recording of formal and informal dialogues of native speakers of Czech from the Prague area. These recordings were converted into the computer form as a linear text of 120,000 word counts. Obtained texts were normalized and 800 words from each speaker were utilized. Altogether, 40,370 word tokens were grammatically tagged. As a result, 33 lists of frequencies were composed and declination and conjugation paradigms of spoken Czech were composed. Comparison with existing frequency dictionaries of Czech language was performed.

Almost two thirds of the spoken Czech language analyzed in this study had no variants since their codes were shared by the Literary standard Czech and substandard vernacular, called Common Czech. Distinctly non-literary forms were found in one third of all words and purely literary forms counted for only 4 % of all words.

This study represents the first systematic contribution to the long-term project of the creation of the Czech National Corpus, which is being born as a collaborative effort of the major Czech linguistic institutions.

Ústav bohemistických studií FF UK
nám. Jana Palacha 2, Praha 1
e-mail: jitka@eng.uiowa.edu

Slovo a slovesnost, volume 61 (2000), number 3, pp. 190-202

Previous Petr Karlík: Hypotéza modifikované valenční teorie

Next Ruselina Nicolova: Basic problems of the integral description of language

Menu
About
Archive
New Journal Home
Archive search: