Časopis Slovo a slovesnost
en cz

Aktualizace rozvržení zdrojů Českého národního korpusu s ohledem na revizi vyváženosti jeho struktury

Jan Králík

[Rozhledy]

(pdf)

Actualizing the distribution of Czech National Corpus sources through re-evaluation of the balance in corpus structure / Aktualisierung der Textquellen-Struktur des Tschechischen Nationalkorpus durch die erwartete Balanzierung der Textquellen

In order to develop balanced corpora, the term “expectations” of the future potential user of corpora has been introduced (Králík, 2001). Based on several statistical studies of such expectations, the textual structure of SYN2000, which is the synchronic part of the Czech National Corpus (CNC) has been proposed and realized. The present article discusses two new studies of expectations (Aktér 2001 and ČJ 2001) and suggests important implications for future work on CNC. Table 1 and Table 2 reveal the stability of expectations in the categories of fiction [krásná literatura] and newspapers and magazines [noviny + časopisy]. Although the daily contact between respondents and administrative texts is stable (see Table 3), the distribution of these texts is closely bound to other non-fiction topics, which is why no special attention to administrative texts is proposed. The expectations concerning newspapers and magazines are stable (Table 5), but changed radically during 1996–2001 (first and last searches, Table 6). Within the same period, an obvious rise in interest in fiction has been noted (Table 6). The reasons for this can be attributed to natural societal development. Thus, a strong reduction in newspaper texts and strong increase in the use of fictional texts is proposed (Table 7 + Table 8).

Z U S A M M E N F A S S U N G
Um benutzbare balanzierte Korpora zu erstellen, wurde der Terminus “Erwartung” eingeführt (Králík, 2001). Anhand der Erwartungen von potenziellen Nutzern wurden daraufhin statistische Untersuchungen durchgeführt, die die Grundlage für die Texquellenstruktur des synchronen Teils SYN2000 des Tschechischen Nationalkorpus (CNC) darstellen. Dieser Artikel beschreibt zwei neue Untersuchungen der Erwartungen (Aktér 2001 und ČJ 2001) und schlägt wichtige Änderungen für die zukünftige Arbeit am CNC vor. Tabelle 1 und Tabelle 2 zeigen die Stabilität der Erwartungen in den Kategorien der Belletristik [krásná literatura], Tagesblätter und Zeitschriften [noviny + časopisy]. Obwohl auch die Menge des täglichen Kontakts der Respondenten mit administrativen Texten stetig bleibt (Tabelle 3), werden die administrativen Texten nicht speziell ausgesucht, da ihre Struktur sehr der Struktur der Fachliteratur ähnelt. Die früher stabilen Erwartungen der Verteilungen von Tagesblättern und Zeitungen (Tabelle 5) änderten sich stark zwischen 1996 und 2001 (vorherige Untersuchungen, Tabelle 6). Innerhalb dieses Zeitabschnittes wurde ein deutlicher Anstieg des Interesses an der Belletristik beobachtet (Tabelle 6). Die Gründen könnte in der natürlichen Entwicklung der gesellschaftlichen Situation gefunden werden. Konsequenterweise wird eine Reduktion der Tagesblätter und journalistischen Texte vorgeschlagen, sowie eine Erhöhung des Belletrie- und Faktenliteraturanteils (Tabelle 7 + Tabelle 8).

Daný článek je on-line k dispozici v databázi CEEOL.

Ústav pro jazyk český AV ČR
Letenská 4, 118 51 Praha 1
kralik@ujc.cas.cz

Slovo a slovesnost, ročník 65 (2004), číslo 2, s. 133-142

Předchozí František Štícha: Nominativ a instrumentál predikátového substantiva v současné češtině: sonda do korpusu

Následující František Čermák: Glanville Price a kol.: Encyklopedie jazyků Evropy