Časopis Slovo a slovesnost
en cz

Comparison of spoken corpora from a sociolinguistic perspective

Jan Chromý

[Articles]

(pdf)

Srovnání mluvených korpusů ze sociolingvistického hlediska

A B S T R A C T
This paper presents a comparison of the largest contemporary corpus of spoken Czech ORAL2013 and a different source, data gathered in the project “Sociolinguistic Analysis of the Use of Prothetic v- in Bohemia” (SAUP). Both of these data sources consist of informal interviews with Czech speakers, but their design is different. ORAL2013 is based on shorter recordings of many speakers whereas the SAUP data is based on longer recordings of fewer speakers. It is assumed that these two data sources should yield similar results since they aim to represent the same population. The comparison is based on the use of two features of spoken Czech in the Bohemia region: prothetic v- and conditional verb forms bych/bysem and bychom/bysme. Based on the analysis, it is concluded that (1) more information about the speakers should be added to future corpora like ORAL2013; (2) the corpus ORAL2013 is useful to conduct a sociolinguistic pilot study which then should be followed by a full-scale research project based on a different sample constructed strictly for the purposes of the particular research; (3) the ratio between the number of speakers in the corpus and the amount of their speech is an important (and often underestimated) aspect of corpus design which should be given careful consideration.

R É S U M É
Tato studie se zabývá srovnáním dosud největšího korpusu mluvené češtiny ORAL2013 s odlišným zdrojem dat, konkrétně s daty z projektu Sociolingvistická analýza protetického v- v Čechách (SAUP). Oba tyto datové zdroje jsou založeny na neformálních rozhovorech s českými mluvčími, liší se však z hlediska toho, jak byly sestaveny. ORAL2013 je založen na kratších nahrávkách mnoha mluvčích, zatímco data SAUP na dlouhých nahrávkách menšího okruhu mluvčích. Studie vychází z předpokladu, že tyto dva datové zdroje by měly poskytovat podobné výsledky, poněvadž je jejich cílem reprezentovat přibližně stejnou populaci. Předmětem srovnání jsou dva prostředky charakteristické pro mluvenou češtinu na území Čech: protetické v- a kondicionálové tvary bych/bysem a bychom/bysme, přičemž srovnávána byla jednak data od středočeských mluvčích z ORAL2013 a pražských mluvčích ze SAUP, jednak data od jihozápadočeských mluvčích z ORAL2013 a českobudějovických mluvčích ze SAUP. V obou případech byl věk mluvčích vymezen intervalem 20–30 let. Na základě statistických analýz se ukazuje pouze jeden výrazný rozdíl, a to v případě užívání protetického v- u jihozápadočeských mluvčích z ORAL2013 a českobudějovických mluvčích ze SAUP (u druhé skupiny je užívání v- významně nižší). Vysvětlení lze hledat v tom, že jsou v tomto případě srovnávány dva nesrovnatelné vzorky. Jihozápadočeská data z ORAL2013 zahrnují mluvčí z velké oblasti, která je vnitřně heterogenní. Statistická zjištění pak vedou ke třem hlavním závěrům: (1) V budoucích korpusech typu ORAL2013 by bylo vhodné poskytovat více informací o mluvčích. (2) Korpus ORAL2013 představuje užitečný nástroj pro vytvoření pilotní sociolingvistické studie, na niž by pak mohl navázat hlubší výzkumný projekt založený na odlišném vzorku, sestavovaném výhradně pro účely projektu. (3) Poměr mezi počtem mluvčích v korpusu a objemem jejich projevu je důležitý (a často podceňovaný) prvek stavby korpusu, kterému by mělo být do budoucna věnováno více pozornosti.

Key words: corpus linguistics, sociolinguistics, ORAL2013, representativeness, Czech

Daný článek je on-line k dispozici v databázi CEEOL.

Institute of Czech Language and Theory of Communication, Faculty of Arts, Charles University
nám. Jana Palacha 2, 116 38 Prague 1, Czech Republic
jan.chromy@ff.cuni.cz

Slovo a slovesnost, volume 78 (2017), number 2, pp. 145-158

Previous Jana Kesselová: Inštrumentál v ranej ontogenéze reči dieťaťa hovoriaceho po slovensky

Next Stephanie Rudwick: Dick Smakman – Patrick Heinrich (eds.): Globalising Sociolinguistics: Challenging and Expanding Theory