Časopis Slovo a slovesnost
en cz

Dokumentace a aplikovaná lingvistika

Helena Novozámská

[Kronika]

(pdf)

Документация и прикладная лингвистика / La documentation et la linguistique appliquée

O pronikání moderní lingvistiky do dokumentace a informací svědčí snaha dokumentalistů využít dosavadních výsledků ve své práci i pomoc lingvistů při řešení úkolů dokumentačních. V r. 1963 se v Chicagu konala výroční konference Amerického dokumentačního Institutu (ADI) pod názvem Automation and Scientific Communication, jejíž jednání bylo vydáno tiskem.[1] Konference pojednávala hlavně o dokumentaci — organizaci fondů, třídění, indexování dokumentů, výchově dokumentačních pracovníků a o automatizaci v dokumentaci. V oddílu automatizace v publikovaných sděleních (Short Papers) je několik zajímavých aplikací lingvistiky.

Obdobné otázky, které se řeší při zpracovávání slovní zásoby jazyka, jsou spojeny se sestavováním heslových rejstříků pro dokumentační účely a jejich hodnocení pomocí zadaného slovníku, jak ukázal referát C. Schultzové[2] a S. Artandiové.[3] V prvé práci byla navržena metoda, jak hodnotit hesla k třídění, která jsou navrhována autory zpracovávaných prací. Jednotlivá hesla se srovnávala se slovníkem, který určoval, zda slovo nebo skupinu slov je možno jako třídník přijmout, anebo je nutné ho vypustit. Za heslo je možno považovat skupinu až tří slov. Nově nalezená hesla program doplňuje do svého seznamu. Druhá práce si kladla poněkud obtížnější cíl — přímo automaticky určovat třídicí hesla z textu v přirozeném jazyce. Do počítače byl založen seznam třídníků pro daný obor a stroj z něho vybíral hesla a přiřazoval je textu; kromě toho stroj určoval nová hesla přímo ze slov textu (hlavně vlastní jména). Druhá část programu hodnotila správnost výběru hesel. Dokumentalisté také volají po pečlivé ja[295]zykové i obsahové redakci nadpisů článků — po jakési standardizaci, která by umožnila strojové zpracování a automatické třídění literatury.[4]

Stále otevřenou otázkou v dokumentaci je možnost automatického popisu obsahu jednotlivých publikací. Pro tento účel byly navrhovány různé umělé jazyky založené na logickém kalkulu a doplněné některými jazykovými kategoriemi. Tyto kategorie se zavádějí proto, že jsou jednoznačné a usnadňují člověku porozumění. Kochen[5] předložil systém, ve kterém se zapisují informace z různých zdrojů, statistik apod. ve formě jednoduchých vět složených z anglických slov, kterým je ponechán vždy jeden určitý význam. Bohnert[6] uvažuje o možnosti užít k tomuto účelu logického kalkulu a rozšířit jej kategoriemi jako „every“, „any“, shodou v čísle aj. Williams[7] zavádí tzv. multidimenzionální gramatiku — výsledek analýzy věty touto gramatikou je tabulka nebo sémiograf, který vyjadřuje sémantické vztahy mezi slovy ve větě. Jiný umělý jazyk je navrhován v příspěvku T. Waltona.[8] Jeho jazyk se skládá ze slovníku s názvy věcí, asociací a charakteristik. Slova jsou uspořádána do tříd s jemnějším podrozdělením a zapsána ve formě matic. Gramatika tohoto jazyka se skládá z klasifikace vztahů „vnitřních, vnějších a atributivních“. Analyzuje tedy větu na základě významových charakteristik jednotlivých slov. Ve všech případech jsou tyto návrhy víceméně teoretické. Dosud však nebyla ani pokusně dokázána oprávněnost postupů zpracování pro informační účely, ani jejich efektivnost.

Velmi důležitou otázkou pro rozvoj automatizace informací je automatická analýza textu v přirozeném jazyce. O výsledcích své práce a výhledech automatické analýzy, které z ní vyplývají, referovali Kuno a Oettinger[9] (viz též recenzi v SaS 25, 1964, 144—148). Charakterizovali svůj způsob analýzy textu a zjistili, že sice dvojznačným větám správně přisuzuje dvojí syntaktickou interpretaci, některé věty s více syntaktickými interpretacemi nemají však odpovídající sémantické interpretace. Z práce vyplývá, že dnes je nutno řešit úlohu transformací (ve smyslu Chomského) v gramatice, problém větného rozboru a úlohy sémantiky při řešení syntakticky určené víceznačnosti. I. Rhodesová se zabývala systémem prediktivní analýzy,[10] Klein[11] modelem závislostní gramatiky, která má deset typů závislostí (založených na frázové gramatice typu gramatiky Chomského a Harrisovy). Pomocí této gramatiky se snaží vyřešit otázku totožnosti významu dvou textů, které mají společný slovník. Předpokládá, že význam určitého textu je obsažen ve významu jiného textu, jestliže slovník textu prvého je podmnožinou slovníku textu druhého a závislosti mezi prvky slovníku textu prvého jsou podmnožinou závislostí mezi prvky slovníku textu druhého. Navrhuje užít této gramatiky pro systémy vyhledávání odpovědí a pro zkracování textů. Množinový model syntaktických funkcí podobný modelu Kulaginové předložil I. Sakai.[12] [296]Problematikou převodního jazyka se zabýval příspěvek P. Sgalla[13] (viz SaS 24, 1963, 114—128). O zajímavém pokusu referoval Edmundson;[14] zjišťoval, zda lze programu pro abstrahování textů v angličtině použít pro jiný přirozený jazyk (ruštinu). Po menších opravách algoritmu lze tohoto programu užít i pro ruštinu.

Ojedinělou prací byla velmi zajímavá práce J. Farradana,[15] který zkoumá otázky reprezentace pojmů na základě relačního indexování na psychologickém základě. Jeho systém je poněkud podobný systému sémantických faktorů nebo třídicímu systému Perryho a Kenta.

Na konferenci se ukázala důležitost lingvistiky pro rozvoj dnešní dokumentační vědy a informací. Lingvistika zde může najít široké uplatnění a zároveň nové požadavky kladené tímto oborem na ni mohou pomoci usměrnit vývoj teorie jazyka ve sdělovacím procesu. Skrovné snahy v tomto oboru se pokouší u nás koordinovat Ústav pro technické a ekonomické informace; je nutno přiznat, že se těmto problémům dosud u nás věnovalo málo pozornosti, ačkoli jsou již dnes pro dokumentaci velice závažné.


[1] Automation and Scientific Communication, Part I Proceedings, Part II, III Short Papers, American Documentation Institute, Washington D. C. 1963.

[2] C. Schultz, Editing author produced indexing terms and phrases via a magnetic tape thesaurus and computer program, s. 9—10.

[3] S. Artandi, Thesaurus controls automatic book indexing by computer, s. 1—2.

[4] S. Herner, Effect of automated information retrieval systems on authors, s. 101—102.

[5] M. Kochen, An adaptive system for directly recording and retrieving information in simple, formal, English-like sentences, s. 43—46.

[6] H. Bohnert, English-like systems of mathematical logic for content retrieval, s. 155—156.

[7] T. Williams, Topic charting and paraphrase collecting through use of multidimensional grammar, s. 47—49.

[8] T. Walton, A formal indexing language for automatic document retrieval systems, s. 21—22.

[9] S. Kuno - A. Oettinger, Prospects of automatic processing of English language data, s. 5—6.

[10] I. Rhodes, The method for mechanical translation used by the National Bureau of Standards Group and the structure of its machine glossary, s. 23—24.

[11] S. Klein, Syntactic dependency and the determination of meaning in written English, s. 11—12.

[12] I. Sakai, Syntactic functions and distribution classes defined on the basis of the set theory, s. 25—26.

[13] P. Sgall, The intermediate language in the machine translation and the theory of grammar, s. 41—42.

[14] H. Edmundson, An experiment in abstracting a Russian text by computer, s. 83—84.

[15] J. Farradane, Relational indexing and new methods of concept organisation for information retrieval, s. 135—136.

Slovo a slovesnost, ročník 26 (1965), číslo 3, s. 294-296

Předchozí Karel Berka: Ontologie a sémantika

Následující Jan Průcha: Matematická lingvistika v Polsku