Časopis Slovo a slovesnost
en cz

Aktuální otázky finské lingvistiky

Helena Lehečková

[Rozhledy]

(pdf)

Актуальные вопросы финской лингвистики / Topical problems in the Finnish linguistics

Na sympoziu nazvaném Finská lingvistika na prahu 80. let (r. 1979) si P. Saukkonen ve svém referátu právem stěžoval, že finská jazykověda je v zahraničí velmi málo známa. Pokusím se proto zde stručně představit její hlavní zaměření, pracoviště a výsledky za poslední léta.

Finská lingvistika bývá označována za velmi, někdy až příliš konzervativní. Nejvýznamnějších výsledků dosáhla nepochybně na poli dialektologie, srovnávací ugrofinistiky a historické jazykovědy, zatímco tzv. obecná lingvistika se začala rozvíjet teprve nedávno. Ale má už dnes řadu zajímavých výzkumů. Bylo možné přesvědčit se o tom na 5. mezinárodním ugrofinistickém kongresu v Turku (r. 1980).

Z tradiční problematiky zůstává aktuální zkoumání příbuzných jazyků: zkoumání baltsko-finských jazyků se věnuje především Pertti Virtaranta a katedra jím vedená na univerzitě v Helsinkách, mordvinštinou, čeremištinou a votštinou se zabývá Raija Bartensová, která publikovala práce o syntaxi infinitivních tvarů. Nedávno vyšla např. rozsáhlá kniha M. Korhonena o historickém vývoji laponštiny. Vedle další literatury navíc stále vycházejí sbírky ukázek různých jazyků.

Druhou nejdůležitější oblastí finské lingvistiky je lexikografie a lexikologie. Většina finských ugrofinistů se podílí nebo podílela na sestavení základních slovníků. Čtyřdílný Slovník současné finštiny (1929—1961) je stále velmi dobrý a užitečný. Loni byl obohacen o nový díl, v němž je uvedeno 6000 hesel — buď nových slov, nebo nových významů slov. V současné době se připravuje a v r. 1982 má vyjít Základní slovník současné finštiny, který bude mít 80 000 hesel. Od r. 1955 vychází po částech Finský etymologický slovník; zbývá vydat už jen rejstřík. Na 1. polovinu 80. let se plánuje vydání šestisvazkového Slovníku staré spisovné finštiny. Pracuje se na slovnících příbuzných jazyků: karelštiny, vogulštiny, inarské laponštiny, čeremištiny a votštiny.

R. 1976 bylo založeno samostatné Centrum jazykového výzkumu (vede Tuomo Tuomi), které řídí ministerstvo školství. Jeho úkolem je jednak zpracovávat aktuální otázky jazykové kultury (např. v poslední době to byl rozbor tzv. úředního jazyka a návrh pravidel na jeho zlepšení), jednak práce na slovnících. Nejrozsáhlejším současným projektem tohoto pracoviště je příprava dvacetidílného Slovníku finských dialektů. K tomuto účelu dostalo Centrum vlastní počítač. Jednotlivá hesla se ukládají do jeho paměti a mohou se neustále doplňovat a opravovat. Navíc se tam ukládají i takové informace, které se ve vlastním slovníku neobjeví, ale které mohou být dále využity (např. seznamy synonym, rozšíření slov, jejich varianty, příklady ve větách, homonyma atd.). Z tohoto pracoviště vzešel i Retrográdní slovník finštiny (red. Tuomo Tuomi, 1973), založený na Slovníku současné finštiny.

Od r. 1960 funguje ve Finsku Centrum technického lexika, které sbírá slovní zásobu z technických oborů a třídí ji jednak podle odvětví, jednak podle jazyků (včetně albánštiny, esperanta nebo svahilštiny). Má už asi 500 základních souborů. Centrum poskytuje informace a poradenskou službu týkající se odborného lexika.

Většina lingvistických výzkumů se až donedávna prováděla na katedrách finštiny a ugrofinistiky při jednotlivých univerzitách. Před několika lety byla založena v Helsinkách první katedra obecné lingvistiky, kterou vede Fred Karlsson. Mezi jejími mladými členy jsou už i v zahraničí známí Orvokki Heinämäkiová, zabývající se hlavně sémantikou, a Esa Itkonen, který se zaměřil na metodologii lingvistiky. S nimi částečně spolupracuje i Lauri Karttunen, který v současné době působí jako profesor na univerzitě v Texasu.

[164]Nové metody ve zkoumání jazyka začala užívat i výzkumná skupina kontrastivní lingvistiky na univerzitě v Jyväskylä (vedená Jaakko Lehtonenem a Kari Sajavaarou). Od r. 1974 pracují na projektu nazvaném The Finnish-English Cross-Language Project a výsledky své práce publikují v řadě Jyväskylä Contrastive/Cross-Language Studies. Na začátku se projekt soustředil na srovnávání povrchových struktur ekvivalentních textů v obou jazycích při použití dvojjazyčných informantů. Užívaly se přitom buď anglické gramatické kategorie jako východisko pro hledání finských protějšků, nebo se vycházelo od obecných sémantických kategorií a hledalo se jejich vyjádření v obou jazycích. Později byl projekt rozšířen na zkoumání aktuální komunikace. Studovaly se situace s interakcí mluvčích (zejm. při seminářích, vyučovacích hodinách, při konverzaci) i monologické situace (čtení, vyprávění). Při těchto výzkumech se využívá řady technických pomůcek, magnetofonových a videofonových záznamů. Pro dialog bylo vyvinuto zařízení, které umožňuje zachytit repliky několika mluvčích najednou.

Tyto otázky částečně zasahují i do sociolingvistiky, která se ve Finsku začala rozvíjet od r. 1977 na podnět Akademie věd na katedrách finštiny čtyř univerzit, jejichž sídlem jsou Helsinky, Tampere, Turku a Jyväskylä. Zatím se věnuje pozornost zevrubnému zkoumání městského jazyka. Druhou oblastí, kde má sociolingvistika velké možnosti uplatnění, je zkoumání bilingvismu. Je překvapivé, že v zemi, kde je dvojjazyčnost jevem tak častým (bilingvismus finsko-švédský a finsko-laponský), bylo jí ve vědeckých pracích zatím věnováno málo pozornosti.

Psycholingvistika jako obor se zatím ve Finsku neustálila, ale v poslední době se provádějí některé experimentální psycholingvistické výzkumy na katedře psychologie při univerzitě v Jyväskylä (za vedení Isto Ruoppily). Zvláštní pozornost je věnována zkoumání vzájemného jazykového vlivu dospělých a dětí předškolního věku.

V oblasti logicko-lingvistického zkoumání je nejvíce znám Jaakko Hintikka, který vyvinul známou sémantiku her. Jeho práce se opírá o zkoumání formálních jazyků, ale dá se využít i pro jazyky přirozené.

Matematická lingvistika je ve finských jazykovědných výzkumech zcela novou disciplínou. Doposud zahrnuje pouze několik projektů, které se postupně realizují na jednotlivých pracovištích:

(1.) Automatickou analýzou finského textu se zabývá F. Karlsson. Zatím byl proveden experiment s automatickou morfologickou analýzou (viz dále), do projektu budou perspektivně zahrnuty i ostatní jazykové plány.

(2.) Do počítače byl uložen jazykový materiál spisovné finštiny i finských nářečí pro syntaktický archív v Turku (vede Osmo Ikola). Cílem této práce je vytvořit deskriptivní syntax finštiny založenou na mluvených dialektech.

(3.) Kvantitativní výzkum se týká finských jmen a příjmení, jejich vzájemného vlivu, působení módy při jejich výběru aj. (T. Tuomi).

(4.) Různé jazykové styly z hlediska statistického se zkoumají na univerzitě v Oulu pod vedením P. Saukkonena (srov. zde jeho článek na s. 81—87).

Všechny finské lingvistické práce z poslední doby, které mají význam pro obecnou lingvistiku (kromě Syntaxe současné finštiny, Lehečková, 1981), jsou právě z oblasti matematické, resp. strojové lingvistiky.

Kimmo Koskenniemi ve své práci Automatické vyhledávání základních forem finských slovních tvarů (1978) zkoumá vyhledávání slovníkového tvaru určitého výrazu a zjišťuje, zda je na základě našich současných znalostí možno sestavit algoritmus pro tento proces (tj. automatickou lemmatizaci). K tomu je třeba pořídit explicitní model ohýbání slov. Ve finštině je možno tvořit od jednoho slovníkového hesla mno[165]hem více různých slovních tvarů než v jazycích jiných. Bohatá paradigmata mají jak jména, tak slovesa. (Od každého jména lze utvořit několik tisíc tvarů, od jednoho slovesa více než 10 000 tvarů.) Dalším problémem je stupňování konsonantů, kterému podléhá asi čtvrtina finských slov. Samo stupňování může být snadno zaprogramováno, ale potíž je v tom, že pouhý výskyt slova neříká, zda stupňování může nebo musí být provedeno. A konečně slovní tvary nejsou tvořeny pouhým sřetězováním jednotlivých morfémů.

Koskenniemi zatím sestavil algoritmus pro ohýbání substantiv, adjektiv a sloves a pro afixaci posesívními sufixy a enklitiky. Tento algoritmus byl vyzkoušen a shledán operativním. Zbývá vytvořit ohýbací pravidla pro zájmena, číslovky a pravidla pro tvoření složenin. Autor odhaduje, že sestavení algoritmu pro účely automatické lemmatizace je v možnostech současných středních a velkých počítačů. Automatická lemmatizace si klade za cíl vyhledat všechna gramatická slova, jejichž realizací může být daný tvar. K tomuto účelu je třeba použít také explicitní lexikon (v daném případě byla použita počítačová verze retrográdního slovníku T. Tuomiho).

Koskenniemiho práce je užitečná nejen pro sestavování slovníků, ale je zajímavá i z hlediska studia jazyka, ať už jednotlivého (např. pro objasnění jeho morfologie), nebo obecně (např. při hledání adekvátních popisů flexe v různých jazycích).

Využitím počítače pro morfologickou analýzu se zabývají ve své nejnovější práci Experiment s automatickou morfologickou analýzou finštiny Benny Brodda a Fred Karlsson (1981). Na rozdíl od Koskenniemiho, který považuje za nezbytný předpoklad takové analýzy lexikon, snaží se tito autoři ukázat, jakých výsledků je možno dosáhnout při automatické segmentaci slov bez použití slovníku, tj. pouze na základě jevů povrchové struktury (fonologických, fonotaktických a morfotaktických vlastností). Zatím se zkoumání omezuje na flexívní, posesívní a enklitické morfy, zatímco složeniny a odvozovací morfémy zůstávají stranou.

Cílem této práce je dát odpověď na tři základní otázky: (1.) Do jaké míry je možno vytvořit algoritmus pro automatickou morfologickou segmentaci finských slovních tvarů. (2.) Jaké typy morfologických mnohoznačností obsahují povrchové řetězy. (3.) Jaké teoretické implikace má tento přístup.

Ad 1: Segmentační pravidla formuloval B. Brodda (1977) v systému BETA (programovací jazyk organizovaný jako substituční gramatika) a úspěšně jej aplikoval při automatické analýze finské morfologie. Materiálem pro toto zkoumání byly texty z finských časopisů (2500 slov) a text jedné finské knihy (49 000 slov). Korpus byl analyzován v 50 etapách. Nejprve bylo použito jednoduchého zakódování finských slovních tvarů, výsledek byl opraven a znovu zakódován. V mnoha případech vedla oprava chyb v jedné skupině tvarů k chybám v skupině jiné. Poslední verze analýzy segmentovala 98,1 % všech forem správně. Zavedená segmentační pravidla fungují pouze na základě fonologických a morfologických informací (a seznamu výjimek), přičemž se nepoužívá lexikon ani vyšší syntaktické nebo sémantické informace. Chyba při segmentaci finských slovních tvarů nemůže být v rámci systému BETA odstraněna, protože jde o chyby způsobené fonologickou homonymií.

Ad 2: Analýza nemůže probíhat na rovině morfémů, ale na rovině morfů. Jedním z výsledků této práce bylo i zmapování všech finských morfů a jejich homonymie. Ve finštině existuje 186 alomorfů pro neodvozovací morfémy. Z nich 114 (tj. 60 %) je homonymních s jedním nebo více alomorfy. Homonymie v praxi však způsobuje méně problémů, než by se zdálo, a z velké části může být vyřešena jednoduchými interpretačními pravidly vycházejícími z informací o kontextu daného morfu. Např. vok + n může znamenat 3 různé morfémy: Osobní koncovka pasíva je to pouze tehdy, když se vyskytuje vpravo od znaku pasíva (sano-tt-i-in), posesívní sufix, když je vpravo od pádové koncovky končící samohláskou (talo-ssa-an), a pádová koncovka illativu je to tehdy, když následuje přímo za kmenem (talo-on).

[166]Ad 3: Hlavní teoretickou otázkou, kterou tato práce vyvolává, je ta, jak v zásadě jednoduchý systém má tak překvapivě dobrý výsledek. Patrně kombinace povrchových ukazatelů nese mnohem více informace, než se původně v lingvistice předpokládalo. Fonologický (grafemický) řetěz je velmi bohatý na informaci a obsahuje klíč k morfologii, a tudíž i k syntaktické struktuře a sémantické interpretaci. Ukázalo se, že segmentační mechanismy pro automatickou analýzu finštiny jsou jednodušší než např. pro germánské jazyky. Je to dáno bohatostí a relativní průhledností finské morfologie.

Obě uvedené práce si nekladou za cíl vytvořit dokonalý algoritmus pro automatickou morfologickou analýzu slovních tvarů, ale jejich největším přínosem je získání nových informací o jazyce, k nimž se došlo při sestavování takového algoritmu. Použití počítače není samoúčelné, a obohacuje lingvistický popis tím, že vyžaduje explicitní modely. Aplikace algoritmu ukazuje, do jaké míry je možno fungování přirozeného jazyka postihnout stanovenými pravidly.

Zatímco předešlé práce analyzují jazyk na rovině slovních tvarů, zabývají se Auli Hakulinenová, Fred Karlsson a Maria Vilkunová v knize Charakteristické rysy finských vět v textu: kvantitativni výzkum (1980) rozborem vět a souvětí. V tomto případě se počítače nepoužívá k analýze samé (tu provádějí autoři), ale ke kvantitativnímu zpracování jejích výsledků. Původním cílem této práce bylo analyzovat základní syntaktické rysy co nejvíce neutrálního žánru psaného textu. Výsledky měly dát odpověď na otázky typu: Jak ovlivňuje reference, textová vázanost a funkce NP její pozici ve větě? Existují v hlavní větě takové jevy, které se nevyskytují ve vedlejších větách? Jaký vliv má rozvitost větného členu na jeho umístění ve větě? Dále se zjišťovaly relativní frekvence základních syntaktických jevů, jako je počet vět v souvětí, počet větných členů a slov ve větě, frekvence NP ve funkci subjektu, objektu apod. Kromě toho si autoři položili i některé metodologické otázky: Jaký minimální korpus je třeba pro spolehlivé zjištění jednotlivých dat? Jak je možno využít počítače při analýze syntaktických a textových dat? Jsou kvantitativní výsledky z empirických významů relevantní pro „čistě kvalitativní“ popis jazyka v gramatikách?

Texty byly vloženy do počítače tak, že každá věta byla zakódována do systému 66 proměnných, z nichž každá měla 2—15 subkategorií. (Např. proměnná č. 50 „prostředek textového zapojení koncového příslovečného určení“ má subkategorie: 1. elipsa, 2. anafora, 3. katafora, 4. opakování, 5. komparace, 6. vyšší pojem, synonymum, parafráze, 7. lexikální koheze, 8. volné, 9. exofora, 10. irelevantní.) Proměnné a jejich subkategorie byly stanoveny tak, aby byly dostatečně přesné a nepřekrývaly se: to bylo ovšem velmi nesnadné. Spolehlivost zakódování, na němž závisejí výsledky práce, byla zpočátku testována tím, že všichni tři autoři procházeli tytéž texty a porovnávali výsledky svých rozborů. Později prováděla veškeré kódování jedna pomocná vědecká síla. (Zjišťovala jednak kvantitativní údaje samy (délku vět, vzdálenost od slova předcházejícího aj.), dále deskriptivní údaje (např. pořádek slov, strukturu větných členů, pády větných členů aj.) a konečně určité rysy, které závisely přímo na jejím rozhodnutí (typ reference, topikalizace větných členů a její důvod, sémantický status větných členů, typ modality, textovou funkci aj.). Informace o modálně pragmatických vlastnostech věty, např. určení textového aktu, se ukázaly nejvíce problematickými. Jednotkou zkoumání je zde totiž věta a v jejím rámci je např. určení textového aktu obtížné, protože by vyžadovalo nejprve analýzu celého textu.)

Počítač zjišťoval frekvence jednotlivých subkategorií a především sestavoval různé tabulky, které odhalují korelace mezi jednotlivými proměnnými. Korpus, na němž se analýza prováděla, obsahoval 123 textů o rozsahu 10 149 vět. Z hlediska metodologie se uvádí jako obecné pravidlo, že spolehlivý vzorek frekvence subkategorií musí být tak rozsáhlý, aby v něm každá kategorie byla zastoupena alespoň pěti příklady. [167]Rozsáhlejšího materiálu je třeba pro zjištění korelací mezi proměnnými. Autoři ukázali, že pro zjištění frekvence většiny syntaktických kategorií a vlastností stačí vzorky několika set vět. Toto tvrzení dokazují srovnáním analýzy náhodně vybraných vzorků 100, 300, 500, 1000 a 2000 vět. Mezi výsledky rozborů jednotlivých vzorků nebyly podstatnější rozdíly. Zajímavé je srovnání výsledků 4 vzorků: 500, 1000, 2000 a 10 000 vět. Ukázalo se, že už nejmenší vzorek stačí ke zjištění nejen pro víceméně „běžné“ proměnné, jako je např. počet slov, počet vět aj., ale i pro proměnné zakládající se na detailní klasifikaci např. typů vět, pořádku slov nebo struktury větných členů (Těšitelová, 1980). Tento závěr však nelze zobecnit, protože šlo o homogenní vzorky. Autoři poukazují na to, že spolehlivost analýzy se od určité hranice nezvyšuje s rozšířením korpusu, ale záleží na přesném a důsledném zakódování materiálu.

Všechny tři uvedené práce přinášejí nejen mnoho nového do popisu finštiny, ale ukazují, jaké možnosti existují při využití počítačů k obecnému popisu jazyka, což byla oblast pro finskou lingvistiku až donedávna nedostupná.

 

LITERATURA

 

BRODDA, B.: BETA-systemet: En sammanfattning. Nordiska data-lingvistikdagar 1977, Rapporter från Språkdata, Göteborgs universitet 1977.

BRODDA, B. - KARLSSON, F.: An experiment with automatic morphological analysis of Finnish. Publications of the department of general linguistics, No. 7. University of Helsinki 1981.

HAKULINEN, A. - KARLSSON, F. - VILKUNA, M.: Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications of the department of general linguistics, No. 6. University of Helsinki 1980.

KOSKENNIEMI, K.: Suomen kielen sanamuotojen perusmuodon automaattinen päättely: Mahdollisuuksien arviointia ja taivutuksen formalisointi. Computing centre, Research reports No. 5. University of Helsinki 1978.

LEHEČKOVÁ, H.: Syntax současné finštiny. SaS, 42, 1981, s. 78—80.

TĚŠITELOVÁ, M.: Využití statistických metod v gramatice. Praha 1980.

TUOMI, T.: Suomen kielen käänteissanakirja, Suomen kirjallisuuden seura. Helsinki 1973.

Slovo a slovesnost, ročník 43 (1982), číslo 2, s. 163-167

Předchozí Josef Filipec: Kniha německých příspěvků k teorii lexikografie

Následující Karel Horálek: B. Bolzano jako sémiolog