Časopis Slovo a slovesnost
en cz

Polská práce o kvantitativní lingvistice pro informační účely

Marie Ludvíková

[Kronika]

(pdf)

Польская работа о квантитативной лингвистике для работников информатики / Un manuel polonais sur la linguistique quantitative à l’usage des informaticiens

Jednou z oblastí, v nichž se v současné době uplatňují metody lingvistického výzkumu, je informatika, disciplína, která popisuje a třídí informace průběžně vytvářené v jednotlivých oborech vědy a techniky a ve vhodné formě je dává k dispozici uživatelům. Výchozím materiálem je tu dokument — jazykové sdělení nejrůznějšího typu, délky a obsahu, k jehož formální a obsahové analýze slouží mimo jiné i metody kvantitativní lingvistiky. Vzhledem k tomu se pro informační pracovníky vydávají z oblasti lingvistiky a statistiky studijní materiály, k nimž patří i polská příručka J. Samborové Językoznawstwo statystyczne dla pracowników informacji naukowej (Sambor, 1978).[1] Cílem příručky je představit ty oblasti kvantitativní lingvistiky, které by se mohly uplatnit při konstrukci systémů pro uchovávání a vyhledávání informace. Její tematika je rozdělena do pěti kapitol, z nichž první je věnována přehledu matematické statistiky, prostřední tři kapitoly otázkám kvantitativní lingvistiky a poslední se týká přímo informatiky.

V první kapitole se čtenář seznamuje se základními pojmy z teorie pravděpodobnosti a statistiky (náhodný jev, náhodná proměnná, pravděpodobnost, četnost), s charakteristikami statistického popisu (relativní četnost, průměr, směrodatná odchylka, variační koeficient) a se základy výběrových šetření a testování hypotéz. Užívání statistického aparátu je vyloženo na lingvistickém materiálu z jazyka polského, především na frekvenčním slovníku polštiny (Kurcz - Lewicki - Sambor, 1976). Kapitola 2 pojednává o frekvenčních slovnících podrobněji. Autorka probírá zásady, které je třeba při sestavování frekvenčních slovníků respektovat, aby jejich použití bylo co nejširší (jednoznačné stanovení jednotky zkoumání, statisticky i lingvisticky reprezentativní výběr textů, optimální rozsah základního souboru i výběrů atd.) (srov. Těšitelová, 1974), a vysvětluje statistické parametry ve frekvenčních slovnících uváděné (četnost, rozptyl četnosti v jednotlivých výběrech a stylech). V kapitole 3 přechází autorka ke statistické struktuře lexika v textu a uvádí řadu známých vztahů mezi kvantitativními vlastnostmi jazykových jednotek (vztah četnosti k pořadí, délce slova a počtu významů, pokrytí textu slovy určité frekvence apod.). Využití statistiky ve stylistice (kapitola 4) je založeno na vymezení stylu jako odchylky od normy, již představuje frekvenční slovník jazyka. Na tomto principu formuloval Guiraud pojem slov tematických a slov klíčových; tyto pojmy důležité pro informatiku jsou vyloženy a ilustrovány ukázkou Giraudových analýz básnických textů francouzských i ukázkami výzkumů polských (Guiraud, 1954). Výklad o těchto otázkách pokračuje v kapitole 5, v níž jsou klíčová slova zasazena do kontextu informatiky: uspořádaný soubor klíčových slov tvoří slovní charakteristiku dokumentu, je kondenzací jeho obsahu. Stanovení souboru klíčových slov určitého oboru je však pro svou komplexnost velmi obtížné; autorka uvažuje o některých jeho aspektech vyplývajících z rozmanité povahy zpracovávaných dokumentů, jako je nutnost přihlédnout vedle slov frekventovaných i k slovům řídkým, vymezení klíčových slov polysémních i víceslovných termínů, využití jazykové intuice a obecných znalostí zpracovatele apod.

Práce J. Samborové má cíl především didaktický — chce podat přístupnou formou základní informaci o problematice statistických výzkumů přirozeného jazyka. V zásadě se autorce tento záměr daří. Výklad elementárních partií statistiky je podán velmi srozumitelně a je doložen množstvím názorných příkladů a tabulek; soubory kontrolních otázek na konci každé kapitoly pak nutí čtenáře k aplikaci poznatků v kapitole uvedených. Poslední kapitola je však vzhledem k zamýšlenému okruhu zájemců příliš stručná; chybí v ní shrnutí zjevných i potenciálních vazeb mezi kvantitativní lingvistikou a informatikou, zvl. z hlediska zaměření na odborný styl (např. [76]normativnost odborného vyjadřování, zřetel k příjemci sdělení, pragmatické aspekty textu apod.). Víme totiž, že v mezivědních kontaktech nemusí být přínosem jen výsledek výzkumné práce, jako je tomu např. u Guiraudových klíčových slov, ale podnětné může být i upozornění na analogické problémy a jejich řešení v jiné disciplíně, zde např. v kvantitativní lingvistice. Na okraj ještě dodejme, že přehlednosti příručky by prospěla pečlivější tisková úprava. Uvedené poznámky a drobné nedostatky ovšem neubírají této příručce na užitečnosti a patrně ji uvítají nejen polští, ale i naši informatici.

 

LITERATURA

 

GUIRAUD, P.: Les caractères statistiques du vocabulaire. Paris 1954.

KURCZ, I. - LEWICKI, A. - SAMBOR, J. - WORONCZAK, J.: Słownictwo współczesnego języka polskiego. Warszawa 1974.

TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha 1974.

SAMBOR, J.: Językoznawstwo statystyczne dla pracowników informacji naukowej. Warszawa 1978. 98 s.


[1] U nás jsou to příručky vydávané Ústředím vědeckých, technických a ekonomických informací, např. Königová, M.: Knihovnická statistika, Praha 1976, Kraus, J.: Přirozený jazyk v informačních systémech, Praha 1974, od téhož autora Úvod do stylistiky pro informační pracovníky, Praha 1977.

Slovo a slovesnost, ročník 42 (1981), číslo 1, s. 75-76

Předchozí Luboš Řeháček: Slavistické zájmy K. Marxe a B. Engelse

Následující Jiří Kraus: Sporné autorství a geneze textu