Časopis Slovo a slovesnost
en cz

Gramatika v korpusu, korpus v gramatice: příspěvek k diskusi o vyhledávání gramatické informace v korpusech

Ludmila Uhlířová

[Články]

(pdf)

Grammar in corpus, corpus in grammar: A contribution to the discussion on searching for grammatical information in a corpus / Grammatik im Korpus, Korpus in der Grammatik: Diskussionsbeitrag zur Suche nach grammatischer Information in den Korpora

A B S T R A C T
This article discusses some aspects of searching for grammatical information in corpora. It argues that any search procedure must consist of at least three principally different steps. First, a hypothesis regarding some grammatical property of the language system must be formulated in terms of an available “tagging” menu. Second, general instructions concerning the sample size, relevant context size, etc. must be stated, and only then can the third step, i.e. the proper search and interpretation of the attested data, be taken. Examples from the Czech National Corpus are offered to show that the boundary between grammaticality and non-grammaticality of a phenomenon or category is represented by a probability scale with more than just two opposing values and that the corpus may serve as an important tool for locating the most probable (favorite) point on the scale. The issue of zero or non-zero occurrence of a phenomenon is discussed in greater detail. It is argued that if no example of a phenomenon is attested in the corpus, it does not necessarily follow that the corpus is too small and that it is necessary or significant to intervene in favor of a larger one.

Z U S A M M E N F A S S U N G
Dieser Artikel beschäftigt sich mit einigen Aspekten der Suche nach grammatischer Information in den Sprachkorpora. Es wird gezeigt, dass der Suchvorgang aus einer Folge von drei prinzipiell verschiedenen Schritten besteht. Zuerst muss eine Hypothese über eine grammatische Eigenschaft des Sprachsystems in abstrakten linguistischen Termini des Typs „tags“ formuliert werden, die im Korpusmenu zur Verfügung stehen. Als zweiter Schritt sind allgemeine Instruktionen zum Umfang der Auswahl und des relevanten Kontexts einzugeben. Erst der dritte Schritt bedeutet die eigentliche Suche und Interpretation der gefundenen Daten. Anhand von Beispielen aus dem Tschechischen Nationalkorpus wird verdeutlicht, dass die Grenze zwischen Grammatikalität und Nicht-Grammatikalität einer grammatischen Erscheinung oder Kategorie als eine Wahrscheinlichkeitsskala mit mehr als zwei oppositionellen Werten zu betrachten ist und dass gerade das Korpus als das geeignete Instrument für die Lokalisierung des wahrscheinlichsten Wertes auf dieser Skala dienen kann. Das Nullvorkommen vs. Nichtnullvorkommen der Korpusbelege wird ausführlicher behandelt. Die Interpretierung der „Null“ kann linguistisch schwierig und kompliziert sein; es ist jedoch wichtig zu wissen, dass man nicht immer berechtigt ist, die Ursache in einem zu kleinem Korpusumfang zu sehen und zugunsten von einem noch größeren Umfang zu intervenieren.

Daný článek je on-line k dispozici v databázi CEEOL.

Ústav pro jazyk český AV ČR
Letenská 4, 118 51 Praha 1
uhlirova@ujc.cas.cz

Slovo a slovesnost, ročník 65 (2004), číslo 1, s. 16-23

Předchozí Milada Hirschová: Obecná pragmatika a pragmatika češtiny

Následující Renata Blatná: Využití statistických metod při popisu neverbálních kolokací