Časopis Slovo a slovesnost
en cz

Lingvistika a informatika

Jarmila Panevová

[Discussion]

(pdf)

Лингвистика и информатика / La linguistique et l’informatique

Zdá se, že období, kdy se systémy ukládání a vyhledávání vědeckotechnických a ekonomických informací (VTEI) vytvářely bez účinného zásahu a užití lingvistických poznatků, v informatické teorii i praxi doznělo. Lze to doložit řadou dílčích publikací, statí i sborníků. Péčí Ústředí vědeckých, technických a ekonomických informací, jako specializované informační instituce, vyšla u nás např. samostatná příručka pro informatiky (Sgall a kol., 1977). Lingvistické metody nezůstávají bez povšimnutí při intelektuálních metodách zpracování VTEI (srov. např. Kovář, 1979), [331]ani při tvorbě automatizovaných informačních systémů (srov. Hajičová - Panevová - Sgall, 1980). Lze tedy nyní, v době „informační exploze”, mluvit o další, neobyčejně aktuální aplikaci lingvistiky. O tento typ aplikace jde i v publikaci, které se chceme v tomto přehledu podrobněji věnovat: Terminologie a tezaurus v pedagogice (zpracoval kolektiv autorů pod vedením V. Smetáčka).[1]

Intelektuální zpracování dokumentů, knižních fondů ap. spočívá zpravidla v tom, že informační pracovník (knihoven, oborových a odvětvových informačních středisek) vybere nejpodstatnější slova nebo slovní spojení (klíčová slova, deskriptory), jimiž charakterizuje obsah zpracovávaného dokumentu, tj. doprovodí dokument tzv. indexy, kde podle vlastní úvahy a podle stupně znalosti oboru vyjádří jejich tematiku. Podle indexů jsou pak vybírány dokumenty na základě požadavků uživatelů (tj. provádějí se rešerše, vyhledávání dokumentů relevantních vzhledem k zadanému požadavku, ať už ručně, nebo automaticky).[2] Výběr indexů nemůže být ovšem zcela libovolný a mluví se pak v této souvislosti o selekčním (informačním) jazyce (SJ). Není to pojem nový, bývá ovšem různě označován: může jít často jen o terminologické varianty.[3] SJ je umělý jazyk (značně vzdálený od formálních jazyků logických i od jazyků programovacích); jeho gramatika je značně redukována, v podstatě jde o lexikální jednotky odpovídající pojmům, mezi nimiž lze odhalit spíše vztahy paradigmatické než syntagmatické (ty najdeme nejčastěji jen mezi složkami víceslovných indexů). Zdůrazňujeme tedy, že podstatou SJ jsou lexikální hesla (jedním z druhů SJ je např. mezinárodní desetinné třídění — MDT).

V publikaci, kterou zde budeme komentovat, je obsažen tezaurus, který je jádrem nově budovaného SJ pro obor pedagogiky. Poznatky, které jsou v publikaci shrnuty a které se týkají vymezení terminologie zejména ve společenských vědách, interpretace statistických výsledků pro pedagogické vědy a pro konečnou podobu tezauru a heuristiky pro budování SJ, jsou vedlejšími produkty práce na úkolu státního plánu a resortního úkolu MŠ — příprava tezauru v gesci výchova, vzdělávání, školství pro tzv. provozní využití, tj. pro předání dokumentačním pracovníkům a později i samočinným počítačům k vlastní indexaci. O tuto fázi nám nepůjde. Kvalitu tezauru, jeho členění, vztahy mezi deskriptory ap. prověří praxe.

Podíváme se na vztah vědních disciplín, které se tu prolínají. Autoři rozdělili pedagogiku do dvaceti dílčích oblastí, pro každou z nich byl sestaven dílčí tezaurus, např. a) vysoké školství, b) výuka jazykům, c) školní a mimoškolní výchova atd.; vedle toho vytvořili tezaurus základních oblastí, v němž by mělo být obsaženo jádro pedagogické terminologie. Jednotlivé tezaury jsou propojeny vzájemnými odkazy. Bohužel ani v této práci není jasně vymezen vztah pojmů termín — klíčové slovo — deskriptor. Proces sestavování tezauru je charakterizován zhruba takto: základní soubor jednotek byl získán excerpcí poměrně širokého a i z hlediska kvantitativní [332]lingvistiky reprezentativního vzorku pedagogických textů,[4] ten byl porovnáván s již existujícími tezaury cizojazyčnými, s MDT a dalšími zdroji pedagogické terminologie. Podkladem k tvorbě tezauru byl seznam klíčových slov získaných volným indexováním 20 tisíc dokumentů; bylo přihlédnuto i k četnosti těchto slov. Do tezauru vstoupily získané lexikální jednotky (klíčová slova) terminologického charakteru, slova, která odborník příslušného oboru vyžadoval jako nutné termíny pro daný tezaurus, jednotky zastoupené v jiných tezaurech tohoto oboru a klíčová slova použitá k indexování zpracovávaných dokumentů.

Vzhledem k tomu, že pro oblast terminologie nemáme mnoho příruček dávajících poučení o tomto úseku slovní zásoby, tím méně pak existují jasná kritéria, kde vést ve funkčním stylu naučném hranici mezi termíny a neterminologickou slovní zásobou,[5] museli autoři postupovat nejschůdnější cestou, a to cestou empirickou a intuitivní: excerpce materiálu, jeho statistické vyhodnocení a využití odborníků z příslušné oblasti jako informantů. Situaci tady ztěžuje fakt, že jde o oblast společenských věd, kde je vymezení termínů obtížnější než ve vědách přírodních. Získaný materiál byl vyhodnocen také sémanticky, tj. bylo stanoveno (není úplně jasné, jak a proč) sedm sémantických skupin, každá s dalším rozdělením na podskupiny (1) osoby, (2) substance konkrétní neživé, (3) substance abstraktní, (4) vědní oblasti a disciplíny atd. Pozoruhodné je, že do 5. skupiny patří „ostatní pedagogické pojmy a odborné termíny”; patrně lze tedy tyto skupiny chápat jako uspořádané s tím, že při zařazování se postupuje podle daného pořadí.[6] Není jasné, jak se redukuje synonymie jako jev pro tezaurus nežádoucí a jak se pracuje s homonymií.

Pomocí statistických testů (χ2) se prokazuje očekávaná závislost sémantických skupin na dílčí popisované oblasti. Např. osoby a neživá konkréta se nevyskytují, jak se tvrdí na s. 25, v dílčí oblasti matematické olympiády, kde se texty skládají z poměrně abstraktních matematických příkladů. Na druhé straně je pochopitelné, že pro oblast didaktické techniky je charakteristický výskyt neživých konkrét, ale též je tu zastoupena kategorie činnosti a děje. Korelace mezi těmito dvěma parametry se bere jako statisticky významná charakteristika pedagogické odborné literatury.

Statistických metod je dále zodpovědně využito při hodnocení, v kolika dílčích oblastech se jednotlivé termíny vyskytly; nejvyšší počet je 8 oblastí ze 16, statisticky významný je však výskyt termínu v 5 oblastech (překvapuje např. vysoký výskyt termínu tělesná výchova — 7 oblastí, naopak termín mládež je společný pouze 4 oblastem). Zdá se tedy, že i při maximální snaze o přesné zadání pro etapu excerpce a při snaze užít objektivních vyhodnocovacích metod, není výsledek ještě prost jisté závislosti na zvoleném materiálu. V daných podmínkách a při rozsahu tezauru to ani nelze mít autorům za zlé. Tezaurus pedagogiky je již nyní (řečeno s autory) „využíván v provozu”, tj. k indexování řízenému jednotkami, které jako deskriptory vstoupily do tezauru a které jsou pro indexátora závazné, stejně jako budou závazné pro příští strojové zpracování.

Autoři použili ve své práci znalostí o vlastnostech termínů, o vztahu slova a pojmu, o onomaziologických kategoriích a jazykových prostředcích, dále o statistických [333]pravidelnostech týkajících se lexikální zásoby, o pedagogice obecné i speciální. Šlo tedy nutně o interdisciplinární výzkum zaměřený na jednu konkrétní realizaci ve VTEI. Několik pomocných věd tu slouží jednomu oboru — informatice, která ovšem zpětně poskytuje své služby pedagogice. Vztah mezi oborem základním a pomocným je tedy komplikovanější, než by se na první pohled mohlo zdát.

Autoři se snažili dílčí výsledky využít i pro teoretické obohacení jednotlivých disciplín. Interpretují výskyt téhož termínu v několika dílčích oblastech tak, aby to charakterizovalo příslušnou oblast pedagogiky. Ukázali na značnou disperzi při intelektuálním vyhodnocování závažnosti jednotlivých termínů 27 kvalifikovanými odborníky a vzali v úvahu i toto statistické vyhodnocení. Zvážili důkladně i potřebu opakování deskriptorového hesla v různých dílčích tezaurech, a to opět na základě tabulek četností. Prokázali jasně, že statistické metody, propracované u nás především zásluhou M. Těšitelové, jsou nutnou součástí při tvorbě tezauru jakéhokoli oboru. Svými úvahami (zejm. s. 69n.) i výsledkem práce přinesli mnoho podnětů pro tu část nauky o slovní zásobě, kde se uvažuje o terminologii.

Na okraj této problematiky připojíme několik poznámek: Většina termínů (deskriptorů) je jednoslovná, mohou však dosahovat až takové složitosti jako např. průpravná cvičení bez nářadí. Hranice termínu byla konfrontována se slovní zásobou rešeršních požadavků; to umožnilo získat jistou oporu, kam až položit hranici jednoho deskriptoru. Jestliže se spojení nezdá dost „terminologické”, zavádí se vedle terminologického jádra tzv. modifikátor — srov. spojení ŽÁK + PÉČE, kde péče je patrně modifikátor, připouští ovšem dva výklady žákovská péče (např. péče žáků dobrých o spolužáky zaostávající) a péče o žáky; APLIKACE + MATEMATIKA (aplikovaná matematika, aplikace matematiky), a tomu se autoři ovšem chtěli vyhnout. Evokují se tím opět úvahy o hranici termínu. Zarážející je deskriptor PROGRAMOVÁNÍ POČÍTAČŮ (s. 102) — nejde tu o genitiv ani subjektový, ani objektový.

Tezaurus jako druh SJ — jak jsme již uvedli — zachycuje do jisté míry vztahy paradigmatické (vztah hierarchie deskriptorů a asociované deskriptory); vztahy syntagmatické jsou tu problematické a souvisejí s vymezením termínů a zachováním jednoznačnosti jejich kombinace. Tyto otázky pochopitelně nelze vyřešit naráz, a autoři připravili velmi užitečný základ pro jejich další řešení praktickým indexováním podle tezauru. Domníváme se, že kolektiv autorů odvedl dobrou práci pro informatiku, pedagogiku i nauku o slovní zásobě a podal názorný příklad o nezbytnosti kontaktu několika vědních disciplín.

Užívaná metajazyková terminologie, v níž není tato publikace ojedinělá, nám dává ještě jeden námět k terminologickému zamyšlení: Čím častěji se využívá lingvistických poznatků v praxi, tím více pronikají i do lingvistického vyjadřování termíny ze zcela odlišných sfér naší ekonomiky (zejm. investiční a výrobní). Mluví se o ideovém projektu, o projektu systému, o poloprovozu, o provozu ap. Přijmeme tuto terminologii (dnes už běžnou ve VTEI) bez omezení i pro oblasti, kde lingvistika není zdaleka jen vědou pomocnou, nebo si budeme i nadále vážit termínů skromnějších, jako je postup, metoda, návrh, ověření, vyzkoušení, experimentování atp.?

 

LITERATURA

 

BURÁŇOVÁ, E.: Ob odnoj vozmožnosti semantičeskoj klassifikacii suščestvitel’nych. PBML, 34, 1980, s. 33—43.

HAJIČOVÁ, E. - PANEVOVÁ, J. - SGALL, P.: Příprava experimentálního automatizovaného informačního systému. Počítačové zpracování vědeckých a technických informací. Problémy teorie a praxe VTEI, 6, Praha 1980, s. 145—159.

HORECKÝ, J.: Hornický slovník terminologický. SaS, 24, 1963, s. 282—284.

HORECKÝ, J. - RÁCOVÁ, A.: Slovník jazykovedných termínov. Bratislava 1979.

[334]KOVÁŘ, B.: Terminologická struktura okruhu selekčních jazyků. Využívání selekčních jazyků. Problémy teorie a praxe VTEI, 5, Praha 1979, s. 5—31.

SGALL, P. a kol.: Úloha lingvistiky při zpracování informací. Praha 1977.

Slovo a slovník. Bratislava 1973.

SOCHOR, K.: Příručka o českém odborném názvosloví. Praha 1955.

TĚŠITELOVÁ, M.: Otázky lexikální statistiky. Praha 1974.


[1] Stejně jako u výše citovaných publikací jde o účelový náklad pro potřebu ústředních úřadů, výzkumných ústavů, podniků socialistického sektoru, vysokých a odborných škol vytištěný polygrafickou základnou ÚVTEI; recenzovaný sborník byl vydán Ústřední knihovnou — OBIS Pedagogické fakulty UK, Praha 1980, 107 s. Protože jde o příručku vydanou jako Informační bulletin, Supplementum IV, která má omezený okruh působnosti, nechceme práci recenzovat, ale spíše komentovat z hlediska kontaktu několika vědních disciplín, jimž má a může příručka sloužit, zejména z hlediska potřeb vzájemného kontaktu informatika a lingvisty a jejich společného působení na informatickou praxi. Podotýkáme jen, že současně byla vydána i anglicky psaná paralela této publikace (Thesaurus and terminology in education) v nákladu 100 výtisků.

[2] Jiný způsob charakterizování obsahu dokumentu je vytvoření anotace (abstraktu), které opět může být intelektuální nebo (perspektivně) strojové. Způsob výběru informací relevantních pro uživatele na základě akstraktu může být různý. Tento typ sekundárních zdrojů informací necháme v tomto přehledu stranou.

[3] Od 60. let se s těmito termíny pracuje, jejich doménou je u nás časopis Čs. informatika, v SSSR Naučno-techničeskaja informacija, serija 1, 2, od r. 1976 též mezinárodní tribuna vydávaná v Moskvě International forum on information and documentation, v USA Information processing and management (do r. 1975 pod názvem Information storage and retrieval).

[4] K reprezentativnosti výběrů při statistickém šetření v oblasti lexika viz Těšitelová (1974).

[5] Příručka (Sochor, 1955) byla v oblasti názvosloví doplněna pouze několika pracemi teoretickými (srov. literaturu uvedenou v publikaci, o níž píšeme); vedle toho existují konkrétní terminologické slovníky (srov. např. recenzi hornického slovníku, Horecký, 1963), lingvistům není třeba blíže specifikovat slovník lingvistické terminologie (Horecký - Rácová, 1979) a dvojdílný slovník slovanské lingvistické terminologie. Ani sborník z lexikologické a lexikografické konference ve Smolenicích v r. 1970 (Slovo a slovník, 1973) nepřináší nic podstatného pro oblast odborného názvosloví.

[6] Třídění má dost blízko k třídění podstatných jmen (Buraneva, 1980), které je určeno pro aplikaci jiného druhu a je podloženo návrhem operačních kritérií pro zařazení jména do jedné z 10 navržených skupin (popř. do více skupin, při mnohoznačnosti slova).

Slovo a slovesnost, volume 42 (1981), number 4, pp. 330-334

Previous Marie Těšitelová, František Čermák: O nových frekvenčních slovnících finštiny a nizozemštiny

Next Jana Hoffmannová, Ludmila Uhlířová: Konference o některých problémech sémantiky textu