Časopis Slovo a slovesnost
en cz

Elektronická podoba Slovníku spisovného jazyka českého

Jan Králík, Pavla Šmídová

[Kronika]

(pdf)

The electronical version of the Dictionary of Standard Czech Language

Nové možnosti, které lexikografii otevírá komputační lingvistika, přinášejí nejen nové metody lexikologické práce vycházející z velkých textových [319]korpusů, ale rozšiřují i uplatnění slovníků klasických. Podmínkou je ovšem jejich dostupnost v elektronické podobě.

Projekt Čeština ve věku počítačů, podpořený Grantovou agenturou ČR pod číslem 405/96/K214, proto obsahoval i úkol vypracovat metodiku transferu, prakticky převést do elektronické podoby základní české slovníkové dílo Slovník spisovného jazyka českého (SSJČ, 4 svazky vydané v letech 1958–1971) a připravit modifikaci tohoto projektu pro více než dvojnásobně obsažný Příruční slovník jazyka českého (PSJČ, 9 svazků vydaných v letech 1935–1957). Úkol neměl v našich podmínkách obdobu a přípravy ukázaly, že s řešením podobného zadání jsou zkušenosti pouze v menším rozsahu v Jazykovědném ústavu Maďarské akademie věd v Budapešti. Zde prošel obdobný záměr pro šestisvazkový Petöfiho slovník maďarštiny stadiem hardwarových i softwarových příprav, ale i rezignace na možnosti bezchybného využití elektronických čtecích zařízení (skenerů), i obdobím příklonu ke klasickému přepisu za pomoci písařek. Konzultace s maďarskými kolegy přesto vedly k jednoznačným rozhodnutím – k doporučení plochých (nikoli bubnových) skenerů i za cenu fyzického zničení zpracovávaných svazků (uvolnění listů z vazby) a k rozvážnosti při volbě programového vybavení (softwaru). Sondy na tištěných stránkách SSJČ např. ukázaly, že pro množství písmen s diakritiky v češtině nepostačuje systém Recognita, ale že je třeba volit několikanásobně dražší ProLector, atd.

Na počátku práce bylo nejobtížnější určit způsob zpracování tak, aby během dlouhodobé práce nebyl výsledek vystaven nebezpečí zastarání. Rozsah SSJČ 4644 stran s celkovým počtem 192 908 lexikograficky zpracovaných slov v několika různých typech písma vyžadoval počítat s paměťovou kapacitou 53 MB; nemožnost opřít se o srovnatelnou zkušenost přitom výrazně relativizovala jakýkoli časový odhad.

Vlastní projekt převodu SSJČ do elektronické podoby byl z těchto důvodů koncipován jako vytvoření základu s požadavkem jeho co nejširší další využitelnosti. Pro univerzální použitelnost byl zvolen převod prostého textu slovníku do formátu editoru Word 7 se zachováním všech typů písma a grafických značek, a to nejen proto, že nesou relevantní lingvistickou informaci, ale také proto, že v této podobě lze přepis nejspolehlivěji revidovat, a tím zachovat jeho přesnost a bezchybnost. Praxe korektorek pak toto zásadní rozhodnutí potvrdila jako prozíravé. Jakákoli další fáze zpracování může z formátu Word 7 vycházet bez technických obtíží.

Zkušenosti s převodem SSJČ do elektronické podoby:

V období 1996–1999 byl do elektronické podoby převeden celý SSJČ, celkem asi 4700 s. Vlastnímu převodu předcházela adaptace čtecího programu ProLector, který v režimu učení umožňuje vytvořit sady vzorových znaků pro několik různých fontů, tj. typů písma. Při zadávání vzorových znaků z knižní předlohy bylo třeba volit grafémy v co nejlepším (nejjednoznačnějším) provedení, a tak se pokud možno vyvarovat jejich vzájemných záměn.

V tištěném SSJČ se v heslovém odstavci typograficky odlišuje: (1) základní stojaté písmo pro příkladovou část, (2) ležaté písmo (kurziva) pro výkladovou část, (3) drobné stojaté písmo (nonparej) pro určení slovních druhů, pro poučení o tvarech a o původu, pro stylovou charakteristiku a pro vyznačení vazby u sloves a dějových jmen, (4) drobné ležaté písmo (nonparej-kurziva) pro doplňující výklady, (5) polotučné bezpatkové písmo (grotesk) pro heslová slova, (6) slabší bezpatkové písmo pro heslová slova včleněná do jiného heslového odstavce a pro složená slova seskupená jako podhesla k heslovému slovu společné první části, (7) ležaté prostrkané písmo, kterým se ve výkladové části vyznačují synonyma a antonyma.

Čtecí program nebyl schopen rozlišovat ležaté písmo prostrkané (7) od ležatého písma neprostrkaného (2). Rozdíl mezi nimi je v tisku natolik malý, že zachování prostrkaného písma bylo uskutečnitelné v naprosté většině případů pouze manuálním vkládáním mezer. Výsledně se tedy v elektronické podobě SSJČ pracuje s šesti typy písma (v pořadí typů uvedených výše): (1) Times New Roman, obyčejné, velikost 10; (2) Times New Roman, kurziva, velikost 10; (3) Times New Roman, obyčejné, velikost 8; (4) Times New Roman, kurziva, velikost 8; (5) Arial, tučné, velikost 10; (6) Arial, obyčejné, velikost 10. Typy písma pro elektronickou verzi byly voleny tak, aby se co nejméně lišily od grafické úpravy v tištěném SSJČ.

Čtecí program ProLector umožňuje převádět naskenované stránky z obrazové podoby do podoby textové dvěma způsoby. V automatickém režimu jsou nerozpoznané znaky nahrazovány stano[320]venou značkou, v režimu interaktivním je možno v takovém případě čtení pozastavit a určit neznámý znak pomocí klávesnice. Přes veškerou snahu o vytvoření co nejúplnějších znakových sad pro jednotlivé typy písma byla aktivní účast pracovníka při převádění na text nevyhnutelná, a převod proto probíhal v interaktivním režimu.

Výsledkem této fáze zpracování byly textové soubory, ve kterých střídání jednotlivých typů písma bylo naznačeno číselným kódem; dalšími číselnými kódy a náhradními znaky byly dočasně zastoupeny grafické symboly a méně obvyklá písmena. K převedení do Wordu 7 posloužil speciální převodní program, vytvořený pouze k tomuto účelu tak, aby převod do textového editoru zachovával typy písma a slovníkové značky, ale také délky řádků, dělení slov apod. Toto řešení výrazně usnadnilo korekturu, kterou pak bylo možno provádět přímým srovnáváním textových souborů v počítači s tištěnou podobou slovníku.

Čtecí program rozlišoval typy písma víceméně spolehlivě. Souvislý řetězec znaků (oddělený od následujícího i předchozího řetězce mezerou) byl však v programu ProLector převáděn pouze jedním typem písma. Zčásti se tak zamezilo zbytečným chybám, protože většinou takovýto řetězec tvořila samostatná slova, ale na druhé straně to přinášelo nežádoucí odlišnosti od tištěné podoby. Např. interpunkční znaménka, závorky apod., přiléhající ke slovu, byly na rozdíl od typografického řešení v předloze převáděny do elektronické podoby ve stejném typu písma jako přilehlé slovo. Při převodu krátkých řetězců (jednopísmenných zkratek, např. zkratky n. pro nebo) byl naopak typ písma často podřizován typu písma následujícího interpunkčního znaménka. Pokud byla interpunkčním znaménkem tečka, která je v ProLectoru definována pouze pro stojaté písmo, byla celá jednopísmenná zkratka automaticky určena jako stojaté písmo. K nepřesnostem v určení typu písma docházelo i v případech, kdy mezera mezi slovy v slovníkové předloze byla příliš malá.

Ani přes využití maximální kapacity pro zadávání vzorových znaků i výhod interaktivního režimu se nepodařilo zabránit některým vzájemným záměnám grafémů, zejm. i a í, í a l, e a c, ě a č, teček a čárek, pomlček a teček nebo čárek, apostrofů a čárek, dolních uvozovek a dvou čárek; v písmech nejmenších, v drobném stojatém i ležatém písmu, docházelo k záměnám středníků, dvojteček a čárek. Navzájem obtížně rozlišitelné byly pro ProLector také číslice 1 a malé l v základním stojatém písmu, dále malé l a velké I v polotučném bezpatkovém písmu atd. Opravování těchto chyb umožňoval částečně přímo čtecí program (funkce na vyhledávání alfanumerických řetězců a řetězců malé-velké písmeno), částečně bylo možno některé opakující se chybné řetězce znaků hromadně nahradit řetězci správnými pomocí příkazů makro (šlo zejm. o zkratky citovaných pramenů a zkratky pro gramatické, stylistické aj. údaje).

Po vyčerpání těchto možností byl celý text revidován korektorkami. Jejich úkolem bylo mimo jiné korigovat zápisy matematických a fyzikálních jednotek i chemických vzorců využívajících horních a dolních indexů.

Z uvedeného náhledu do problematiky je zřejmé, že typograficky náročné zpracování slovníkového textu (a také grafický systém češtiny) kladly velké nároky nejen na softwarové vybavení, ale při opravování chyb způsobených převodem rovněž na práci korektorů. Při srovnávání předlohy a elektronického textu se přesto podařilo odhalit ojedinělé nedostatky (většinou tiskové chyby) v knižním SSJČ. Současná elektronická verze SSJČ je výsledkem zatím jen jednoho korektorského čtení, a nelze proto vyloučit určitá přehlédnutí.

Výslednou elektronickou verzi bude tvořit souvislý text, rozčleněný na slovníková hesla, nikoli kopírující grafické členění v tištěné podobě. Slovník pak bude možno relativně spolehlivě fulltextově prohledávat, aniž by důležité lexikografické údaje byly odděleny pevnými konci řádků nebo rozdělením slov.

Dalším cílem je připravit obslužný program, který by používání elektronického SSJČ zjednodušil a umožnil využít co nejvíce ze souboru lingvistických informací obsažených v ustáleném pořadí, prostřednictvím zkratek a typografických úprav (značky, typy písma, interpunkce aj.) v slovníkových heslech.

Projekt převodu klasického tištěného slovníku do elektronické podoby nyní pokračuje postupným zpracováváním PSJČ.

Ústav pro jazyk český AV ČR
Letenská 4, Praha 1

Slovo a slovesnost, ročník 61 (2000), číslo 4, s. 318-320

Předchozí Stanislav Žaža: Za Rudolfem Zimkem

Následující Renata Blatná: Básnický text a textový korpus