en cz

Záznam a zpracování textu pomocí strojů

Jitka Štindlová

[Discussion]

Запись о обработка текста при помощи машин / L’enregistrement et le traitement du texte à l’aide des machines

Stroje na zpracování informací dovolují v daleko větší míře a s větší přesností, než tomu bylo bez jejich pomoci, pracovat s literárními texty.[1] V souvislosti s úplným, totálním záznamem textu a s uspořádáním jeho lexikálního fondu pomocí strojů se pociťuje potřeba shrnout některé zkušenosti z takovéto práce, která svým charakterem navazuje na tradice kvantitativních výzkumů.[2]

Jako při kvantitativních výzkumech i při strojovém zpracování textu se jako východisko bere většinou „úplný“ souvislý text. Proto i termín totální excerpce textu znamená tu něco jiného, než co označoval v klasické lexikografické práci. Např. celá léta při budování lexikálního archívu v Ústavu pro jazyk český ČSAV se totální excerpcí textu rozuměl požadavek, aby každé slovo, které se ve zpracovávaném textu nachází, bylo alespoň jedenkrát doloženo citátem, ovšem ve všech významech, frazeologických užitích, event. vazbách. Totální excerpcí textu se dnes však téměř samozřejmě rozumí ta skutečnost, že se zaznamenává každé slovo tolikrát, kolikrát se v textu objevuje (dříve se užívalo výrazu „glosář“). Každá slovní jednotka textu je schopna jako jednotka se uplatňovat při analýze strukturně analytického, statistického, lexikografického, gramatického nebo sémantického charakteru. Při strojové analýze máme pak daleko větší možnost, aby se slovní jednotka objevila i ve svém kontextovém okolí a posloužila i pro zkoumání ve vyšších plánech jazykových.

Na základě totální excerpce textu se vytvářejí především konkordanční indexy a konkordance. Práce tohoto typu mají starou tradici (různé glosáře, biblická konkordance apod.), ovšem stroje je mohou sestavovat rychle a s maximální přesností. Konkordanční index je abecedně uspořádaný index všech [65]slov textu spolu s odkazy na místa jejich výskytu — referencemi. Reference jako část kódované citace umožňuje přesnou lokalizaci slova v textu. Podle charakteru díla se volí i charakter číselné reference. Ta je buď prostě topografická (např. vydání, strana, řádek, pozice v řádku), nebo organická (např. kapitola, odstavec, řádek v odstavci, pozice v řádku).

V případě Slezských písní Petra Bezruče, které zpracováváme pomocí strojů v mechanografické laboratoři Ústavu pro jazyk český ČSAV, jsme zvolili referenci organickou, protože je výhodná především pro perspektivní porovnávání různých vydání téhož textu — jednotlivé básně sbírky mají svá čísla (první dvojčíslí reference), následuje číslo označující verš v básni (trojčíslí) a číslo udávající pozici ve verši (poslední dvojčíslí). Úplná citace, která ve výstupních sestavách není většinou kompletně u jednotek vypisována, obsahuje v našem případě údaj BSP 57 (Petr Bezruč, Slezské písně, vydání 1957) a referenci.

Uveďme malou ukázku z konkordančního indexu ke Slezským písním Petra Bezruče:

brázda	1	82	011	02	brkem	1	08	081	02
brázdu		13	042	05	brnění	1	52	081	01
	2	43	064	03	brousit	1	08	081	03
brázdy		40	010	03	brslenem	1	84	550	04
		77	066	04	bručel	1	51	041	03
	3	77	086	04	brvou		13	007	02
● britem	1	09	034	02		2	38	010	03
britský	1	08	003	03
	počet výskytů

Strojový záznam textu, častěji označovaný jako mechanografický záznam, tj. vyjádřený v řeči stroje, např. v kódu na děrných štítcích nebo na děrné nebo magnetické pásce, umožňuje vytvářet snadno nejen konkordanční indexy, ale i konkordance. Strojová konkordance je taková výstupní sestava, kde slovo textu je přímo dokládáno i automaticky vyčleněným kontextem. Výpis obsahuje abecedně uspořádané slovní jednotky textu (vypisuje se ovšem každá jen jednou) spolu s citáty, které dokumentují v minimálním, automaticky vyčleněném kontextu každý výskyt slova. Za citátem je uvedena reference a pod citáty většinou i číslo udávající počet výskytů dané slovní jednotky v textu (shoduje se s počtem citátů).

Pokud se vypisují skutečně všechny jednotky, vzniká tzv. úplná konkordance. Pro uživatele je často potřebná jen výběrová konkordance pro některé jednotky nebo vymezená (neúplná) konkordance, kdy ne všechna hesla se dokládají citáty (zvláště slova pomocná zůstávají bez dokladů).[3]

V souvislosti s vytvářením konkordancí vzniká celá řada problémů. Především jde o automatickou volbu citátu. Citát má být minimální, tj. jen jedno slovo před dokládaným slovem a jedno slovo za ním, nebo alespoň jeden řádek, anebo má být poměrně rozsáhlý, tj. má obsahovat alespoň tři řádky. Krátký citát — nejčastěji jednořádkový — je jistě pro mnoho slov z hlediska lexikálního naprosto nedostatečný, ale i dlouhý citát často nepostačuje; naproti tomu je v mnoha případech [66]nadbytečný. Dlouhé citáty výhodu strojové konkordance snižují a ztěžují její užívání. Z iniciativy holandských lexikografů[4] byl zkušebně ve středisku v Besançonu u konkordancí připravených pomocí strojů vždy ke každému slovu uváděn podle vyznačení redaktora individuálně dlouhý citát. Přípravná práce, časově neúměrná k výkonu strojů, je možná jen u krátkých textů nebo u speciálně zvolených slov.

Problémy přináší i grafická úprava výpisů, tj. umístění a zvýraznění dokládaného slova, popř. jeho zastoupení. Nejčastěji bývá umístěno uprostřed jednořádkového kontextu a označeno hvězdičkou. V tištěné konkordanci bývá pak dokládané slovo nejčastěji vyznačeno jiným typem.[5]

Interní pracovní konkordance střediska francouzského slovníku v Nancy (Trésor de la langue française), které řídí Paul Imbs, obsahují třířádkové citáty s dokládaným slovem v středním řádku. Pracovníci střediska dosvědčují, že v mnoha případech ani tato délka citátů nepostačuje. Stroje i pro takovéto případy připravily pomoc. Pro všechna slova osmiřádkového kontextu (z nichž tři se uvádějí v „tištěné“ konkordanci s dokládaným slovem v prostředním řádku) existuje archívní doklad. V něm se uvádí vždy ještě pět předcházejících a pět následujících řádků. Tedy celkem citát o 18 řádcích. Vyhledávání archívních dokladů není však nijak mechanizováno a je tedy zdlouhavé, při práci nepohodlné. Rozsáhlé kartotéky jsou uloženy v prostorech suterénu střediska, kde stálá služba vyhledává a zařazuje žádané doklady.

Automaticky vyčleňovaný jednořádkový kontext vyhovuje lexikografům zdá se více než kontext delší. Slouží jako první hrubá informace a odkaz. I pro eventuální pozdější publikování konkordance mají krátké citace podstatnou výhodu. S délkou citátů narůstá značně rozsah díla a vznikají i publikační potíže. Např. gigantické dílo připravené k publikaci za vedení P. R. Busy v Gallarate a Pise Konkordance ke spisům Tomáše Aquinského, kde se pouze jednořádkovými kontexty dokládá více než 10 miliónů slov, představuje nejméně 20 silných svazků.

Bezprostřední strojové výpisy se většinou nepoužívají jako přímé předlohy pro tisk (především pro jejich neúspornost). Konkordance se podle těchto předloh tisknou tradiční metodou, což je vzhledem k přesným klíčovaným referencím každého dokladu obtížné pro sazbu i korektury. Dosud se téměř nevyužívá toho, že celá konkordance je vyjádřena v kódu, tj. technické řeči strojů umožňující sdělovat informace mezi stroji navzájem, tedy i zařízením polygrafické techniky. V současné době se hledají cesty, jak nejvýhodněji publikovat výsledky strojového zpracování. I technický vývoj usiluje o nová řešení v polygrafické výrobě, která plně zhodnotí kódované výstupní záznamy počítačů. Vývoj v této oblasti se zaměřuje především na využívání fotografické techniky.

Běžný, i když především z estetických důvodů ne ideální, je způsob, že výstupní strojové výpisy slouží jako přímé předlohy. Tak byl publikován i Konkordanční a frekvenční index k Slezským písním Petra Bezruče.[6] Obdobně se publikují i díla v nově zahájené edici Compendii — A new Series Compendia — computer-generated [67]aids to literary and linguistic research,[7] kterou zahajuje konfrontační publikace dvou edic Alexandreidy (Concordance to the Vorau and Strassburg Alexander), zpracovaná střediskem v Cambridgi (Literary and Linguistic Computing Centre), které vede R. Wisbey.

Tradici využívat předloh zhotovených elektrickými psacími stroji založily konkordance a konkordanční indexy k textům francouzských klasiků i autorů moderních, současných; ty byly zpracovány za vedení B. Quemady v středisku v Besançonu (Centre d’Etude du Vocabulaire Français).[8] Jako předloh se užívá i přímých výstupních listů z tiskáren počítačů (tisk velkými tiskacími písmeny). Tato technika převládá v americké praxi.[9] I publikace slovníkového charakteru využívají jako přímé předlohy pro tisk výstupních listů počítačů. Tak byly např. publikovány rejstříky k slovníkům angličtiny R. Brown, Normal and Reverse English Word List (Filadelfie 1963 — viz recenze v SaS 27, 1966, 271—372) a indexy The English Word Speculum (compiled by J. L. Dolby and H. L. Resnikoff), které v pěti svazcích publikovalo nakladatelství Mouton v Haagu 1964.

Předpokladem pro publikační využívání strojových předloh je pečlivá volba programu pro grafickou úpravu výstupních, tedy předlohových archů. Často nejsou tyto výpisy dost přehledné, především hledisko úspornosti nebo naopak neúspornosti výpisu způsobuje jistou nesourodost. Proto technika usiluje o to, aby bylo možné využít kódovaného záznamu k zhotovení speciálního fotografického materiálu.[10]

Po mechanografickém záznamu textu, zvl. u díla jednoho autora nebo u děl historického charakteru, kdy je třeba důkladně pracovat s textem, vyhovuje nejlépe jako odkazová pracovní pomůcka pouhý konkordanční index. Např. publikaci konkordančních indexů k historické literatuře italské zahájil M. Alinei v středisku italštiny na utrechtské universitě,[11]

[68]Aby byla usnadněna práce s konkordancemi a konkordančními indexy a lexikálním materiálem vůbec a aby se ho mohlo snáze využívat i ve vyšších plánech jazykových, je třeba, aby různé tvary téhož slova byly řazeny pohromadě. Pro stroje, které textu nerozumějí, to není lehký úkol. Přistupuje se k tzv. lemmatizaci. Každá slovní jednotka se zařazuje do svého lemmatu, které v indexu zastupuje základní heslová podoba, lemma v užším slova smyslu. V našem pojetí představuje lemma nejen základní tvar slova, ale reprezentativním tvarem nebo s reprezentativním tvarem představuje potenciálně (a to i v podobě strojového kódu) celé paradigma daného slova. Pod základní podobu se soustředí všechny v textu se vyskytující tvary jedné lexikální jednotky. Lemmatizací se tedy rozumí především jistá technika postupu přípravného lexikografického zpracování, především se tím rozumí ta skutečnost, že se morfologicky charakterizují tvary slov a dodávají se k nim základní heslové podoby. Tyto charakteristiky umožňují systematicky uspořádat příslušné tvary. V dosavadní praxi strojového zpracování se toho dosahuje dvojím způsobem: (1) Vytvářejí se tzv. seznamy lemmat a jejich tvarů, tj. seznamy lexikálních jednotek vždy spolu s úplným repertoárem tvarů. Při stanovení takovýchto seznamů lemmat se vychází z lexikografického díla, kde jsou tvary taxativně uváděny; tuto metodologii vypracoval P. R. Busa.[12] Při stavbě těchto podkladových konfrontačních indexů latinských lemmat (každé lemma má v seznamu své „archívní“ číslo), tedy indexů reprezentativních tvarů spolu se všemi flektivními podobami, jako výchozí lexikografické dílo sloužil latinský slovník Forcelliniho.[13] Rozsáhlé seznamy lemmat připravil v středisku v Gallarate a Pise P. Stefani. — (2) Druhý způsob lemmatizace reprezentují práce uskutečňované za vedení L. Delatta v středisku v Lutychu (Laboratoire d’analyse statistique des langues anciennes), orientovaném rovněž na latinské texty. Nepracuje se tu se seznamy lemmat, u nichž jsou všechny tvary uváděny taxativním výčtem podle nějakého slovníkového pramene, ale s vyčleněným „kmenem“ (neměnnou částí slova), k němuž potenciálně přistupuje jistý repertoár gramatických koncovkových morfémů. Tato metoda vyžaduje nejen oporu v lexikografickém díle (v slovníku Forcelliniho), ale především v gramatickém popisu morfologického systému. Tento způsob lemmatizace snižuje nároky na paměť strojů (především externí), zvyšuje nároky na přípravu a operace strojů.[14] Objevuje se jistě i okruh problematiky homografie v kmenech a požadavek registrace a slučování variantních základů, např. základů s hláskovými alternacemi.[15] Homografie je vůbec jednou z nejvážnějších překážek snadného strojového zpracování textu. Skutečnost, že dvě shodné jednotky textu patří dvěma různým lemmatům, je poměrně dost častá, a nalézt programy pro jejich automatické rozlišování je velmi obtížné a vůbec ne možné pro všechny případy. Proto rozlišení homografů zůstává v podstatě záležitostí člo[69]věka.[16] Zatím nejefektivněji se homografy rozlišují pomocí dotazů stroje a odpovědí člověka při automatické analýze textu, jak ji např. uskutečňují v lutyšském středisku. Předpokladem těchto dotazů je v stroji uložená informace o možném homografu. Repertoár homografů postupně při zpracovávání textu narůstá; podle postupně získávané informace o frekvenci jednotlivých charakterizací nabízí počítač nejprve nejčastější odpověď. — Vzhledem k tomu, že český grafematický systém je do značné míry paralelou fonologického systému, obsahy pojmů homonymie a homografie se neliší tolik jako v jazycích, kde korespondence obou systémů není tak zřetelná (např. ve francouzštině), nebo v jazycích, které vůbec neusilují v grafematickém systému o paralelu s nejnižšími systémovými jednotkami zvukovými, fonémy (např. v angličtině).

Závěrem této stručné informace o mechanografickém záznamu textu a jeho strojovém uspořádání bychom rádi upozornili ještě na nejednoznačnost některých základních termínů a naznačili, v jakém smyslu těchto termínů užíváme v naší práci. Slovem se v dosavadní praxi rozumí (1) jakákoli jednotka textu od grafické pauzy k pauze (tedy grafém nebo posloupnost grafémů od mezery k mezeře): pro jednoznačnost se někdy říká „každé slovo textu“, „všechna slova textu“ apod.; (2) slovní tvar (podle ruš. také „slovoforma“), tedy to, co se dá specifikovat jako „všechny podoby ohebných slov v textu“; ev. (3) lexikální jednotka, tedy to, co opisujeme jako „všechna různá slova textu“. Např. text Slezských písní obsahuje 16 483 (všech) slov (slovních jednotek), z toho 5 887 různých podob (forem, „slovoforem“, různých tvarů) a 3 316 lexikálních jednotek, prakticky reprezentativních tvarů, heslových podob.

Na základě našich zkušeností se strojovým zpracováním textu pokládáme za užitečné rozlišovat: slovo, jakékoli slovo textu, v angl. terminologii token, dále formu, kteroukoli z podob ohebného slova, tedy i tvar základní, i každou tvarově odlišnou jednotku textu, prostě individuální grafickou jednotku textu, ve shodě s pojmovým aparátem S. M. Lamba a L. Couldové (o. c. v pozn. 3) angl. termín type; lemma, lexikální jednotku morfologicky charakterizovanou repertoárem svých tvarů, reprezentovanou základní (heslovou) podobou, reprezentativním tvarem. I sama tato heslová podoba se nazývá lemmatem.[17]

Uveďme příklad: lemma práce je v textu zastoupeno 5krát ve dvou různých formách. Forma práce 3krát, forma prací 2krát, celkem 5krát. Tedy 5 slov, 2 formy, 1 lemma.

Pomocí těchto termínů vyjadřujeme předcházející skutečnost takto: Text Slezských písní ve vydání z roku 1957 obsahuje 16 483 slov, 5 887 forem, 3 316 lemmat. Vydání 1928 má jen 15 552 slov, 5 641 forem, 3 209 lemmat. — Vztah čísel 5 887 a 16 435, tedy poměr slov a forem, vyjadřuje pro vydání Slezských písní z r. 1957 to, co by se v anglické terminologii označilo „type/token ratio“. — V perspektivě porovnání textů různých vydání Slezských písní nebude jistě nezajímavý i poměr slov a lemmat nebo poměr forem a lemmat v jednotlivých vydáních textu.

Stroje mohou vydatně pomoci v jazykovědné práci.[18] Aby však jejich pomoc byla [70]účinná, musí jim člověk práci dobře zadat, připravit a často i postupně doplňovat a musí zcela jednoznačně pojmově vymezovat a pojmenovávat pracovní úkony, zadaná fakta a rezultáty.[19] Stroje s textem, a to i literárním, pracují rychle a přesně, s neomylnou pamětí, ale mechanicky. Bez mezičlánku lidské práce se neobejdou ani základní pomocné práce, jako je např. záznam textu a jeho lexikografická dokumentace.

[1] Informace zvl. ve sb. Les machines dans la linguistique, Praha — Haag 1968.

[2] Srov. např. Cesty moderní jazykovědy, Praha 1964, s. 103—133.

[3] Termíny full concordance — úplná konkordance, selective concordance — výběrová konkordance, restricted concordance — vymezená konkordance užívá S. M. Lamb a Laura Could v práci Concordances from computers (Mechanolinguistics Project University of California, Berkeley, California 1964); české ekvivalenty jsme zavedli pro práci podle našich tradičních termínů.

[4] Teoretické přípravy i praktické zkoušky s využíváním strojů pro lexikografické práce i lexikologická studia realizuje v Holandsku především F. de Tollenaere, srov. sb. cit. v pozn. 1, s. 49—50 a jeho práci Nieuwe Wegen in de Lexicologie, Amsterdam 1963; srov. SaS 27, 1966, 281—284.

[5] Jako reprezentativní příklad konkordance tištěné z kódovaných záznamů uveďme publikace, které vydala Academia della Crusca ve Florencii: 1968: Novella del Grasso Legnaiuolo (nella redazione del codice Palatino 200), Testo — Frequenze — Concordance; 1969: Concordanze del Canzoniere di Francesco Petrarca. Připravil A. Duro, programy pro strojové práce zpracoval A. Zampolli.

[6] Vydala Socialistická akademie v Ostravě 1969, 198 s. Indexy byly zpracovány v mechanografické laboratoři ÚJČ ČSAV za vedení J. Štindlové, spolupracovali V. Ficek, E. Macháčková, M. Jiráková a O. Burdová. Vědeckým redaktorem publikace byl Fr. Daneš.

[7] Vydává W. S. Maney v Leedsu. Edice Compendia ve svém programu říká, že chce být fórem pro publikace literárněvědných a lingvistických prací připravených pomocí strojů a že je otevřena kterékoli z evropských literatur a jazyků moderních i středověkých.

[8] Byly zpracovány a zčásti i publikovány v nakl. Larousse celé řady konkordančních indexů i konkordancí. Seznamy zpracovaných děl a autorů uvádí i sborník cit. v pozn. 1, s. 61—62.

[9] Viz ukázky v práci cit. v pozn. 3 i v kanadské publikaci Manual for the Printing of Literary Text and Concordances by Computer, jejímiž autory jsou J. R. Glickman, J. G. Stralman, University of Toronto Press 1966. Přehled literárních děl, která byla do července r. 1965 zaznamenána v kódovaných podobách na děrných štítcích, na děrné pásce — anebo na magnetické pásce, přináší informace G. Carlsona Literary Works in Machine — Readable Form, v čas. Computers and the Humanities (1, 1967, č. 3, s. 75—102). Přehledné tabulky uvádějí tyto informace: autor, dílo, odkaz na zpracovatele, jazyk díla, zda zaznamenán kompletní text, v jaké podobě je záznam realizován, počet zaznamenaných řádků, slov nebo znaků, zda jsou k dispozici kopie, zda byl text vypsán, ev. nějak zpracován, zda jsou publikovány výsledky a kdy byl nebo má být kódovaný záznam díla ukončen. Přehled není vyčerpávající, zvláště evropské práce často nejsou uváděny. Přesto obsahuje 225 položek.

[10] Podle kódovaných informací se vytváří mikrofilm se žádaným textem. Dnes se již ověřuje druhá generace „fotosázecích“ strojů. Tato technika má být např. v USA v Boulderu (Colorado) prověřena firmou IBM na rozsáhlé publikaci konkordance ze spisů Tomáše Aquinského. Pro studium využití počítačové techniky pro polygrafii byla v Sindelfingen (IBM Deutschland) vytvořena speciální laboratoř, kde se provádějí i lingvistické analýzy potřebné pro řešení těchto úkolů. (Grafematické systémy jednotlivých jazyků, struktura slov a jejich dělení apod.) I firmy specializované na výrobu strojů pro polygrafický průmysl zaměřují vývoj především tímto směrem.

[11] Spogli ellettronici dell’italiano delle origini e del deucento, II. Forme, 1 : Prose Fiorentine, vyd. A. Schiaffini (tedy zatím 2. díl, a to nelemmatizovaný index k florentské próze), vyd. Mouton 1968. Tištěno tradiční sazbou s velmi obtížnými korekturami.

[12] Pro bližší informaci uveďme několik pramenů: Zusammengefasste Darstellung der Erfahrungen des Centro per l’Automazione dell’Analisi Letteraria des Aloisianum, Gallarate (Varese) Italien, Kolloquium Maschinelle Methoden der literarischen Analyse und der Lexikographie, Tübingen, 24—26. Nov. 1960, s. 6—26; L’elaborazione elettronica nell’Analisi Linguistica, Centro Nazionale Universitario di Calcolo Elettronico, Pisa 1967; Indicis Thomistici edendi Rationes, Mensurae atque Specimina, Pisa 1968; Les travaux du Centro per l’Automazione dell’Analisi Letteraria de Gallarate, Cahiers de lexicologie 3, 1961, Paris 1962, s. 64—68, Un lexique latin électronique, sb. cit. v pozn. 1, s. 251—269.

[13] Lexicon Totius Latinitatis (1771), vyd. Corradimi, Padova 1864.

[14] Srov. K. Korvasová — B. Palek, Některé vlastnosti entropie českého slovníku, SaS 23, 1962, 58—66; viz i čas. Revue (pozn. 18).

[15] Popisy pracovních postupů obou těchto způsobů lemmatizace přináší sb. prací Actes du seminaire international sur le dictionnaire latin de machine (za red. P. R. Busy), Roma — Pisa 1969, Calcolo č. 5, příloha 2, 1968 a přetištění v čas. Revue, Liège 1969, v č. 2 a 3.

[16] Na tyto potíže upozorňoval už v r. 1961 P. R. Busa v čl. L’Analyse des homographes et des formes flexionnelles, Cahiers de lexicologie 1962, 134—135.

[17] Termín lemma není ovšem nový, má už svou tradici v lingvistice.

[18] Informace o využívání strojové práce v oblasti společenských věd, a tedy i jazykovědy, anebo speciálně jazykovědy obsahují především tato nám známá periodika: Bulletin d’information du laboratoire d’analyse lexicologique, publication du Centre d’étude du vocabulaire français. Faculté des lettres et sciences humaines, Besançon 1960—1962, red. B. Quemada. — Cahiers de lexicologie, Didier-Larousse, Besançon — Paris od r. 1959, red. B. Quemada. — Calculi, vyd. Department of Classics Dortmouth College, Hanover, New Hampshire, od ledna 1967, red. S. V. F. Waite. — Computers and the humanities, vyd. Queens college of the city university of New York, od r. 1966, red. J. Raben. — Computer studies in the humanities and verbal behavior, Mouton, Haag. — International journal of man-machine studies, vyd. Academia Press, New York; v ČSSR bohužel nedostupný. — Revue, International organization for ancient languages analysis by computer, Liège, 1. číslo 1965, od r. 1966 jako pravidelné periodikum, red. L. Delatte. — T. A. information, Revue internationale du Traitement Automatique du language, od r. 1966, Ed. Klinsksieck, Paris, red. A. Deweze. — Soubor informací přináší i americká dokumentace: Current research and development in scientific documentation, vyd. National Science Foundation, Washington, č. 15, r. 1969.

[19] V samostatném informujícím článku o zpracování textu Slezských písní (Texty Slezských písní Petra Bezruče prověřovány stroji, J. Štindlová — E. Macháčková) se pokusíme shrnout naše zkušenosti získané při sestavování lemmatizovaného konkordančního indexu.

Slovo a slovesnost, volume 31 (1970), number 1, pp. 64-70

Previous Josef Hrbáček: Poznámky k diskusi o tzv. složitém souvětí

Next Rudolf Šrámek: Příspěvek I. Lutterera ke studiu vývoje toponymických jmen

Menu
About
Archive
New Journal Home
Archive search: