LINGVØSTUDIJA: Морфемно-словотвірний аналіз як інструмент лінгвістичних досліджень

У час загальної комп'ютеризації змінюються методи і технології лінгвістичного аналізу, зокрема сучасної лексикографії. Традиційний "паперовий" словник перестає бути єдиним та ефективним способом представлення знань з двох причин: 1) на сьогодні такий словник не задовольняє потреб користувача, який працює з комп'ютером; 2) укладання паперового словника вимагає багато часу та людських ресурсів для збирання, обробки та систематизації матеріалу у вигляді паперових картотек. Тому в українському мовознавстві на сьогодні нагальною є проблема укладання електронних лінгвістичних словників, які мають формат параметризованих електронних баз даних, оснащених пошуково-класифікаційними програмними аналізаторами для ефективного та оперативного проведення лінгвістичного аналізу.

Розвиток теорії і практики прикладної лінгвістики, зокрема методів комп'ютерного моделювання, дозволили по-новому сформулювати лексикографічне завдання в галузі сучасного українського словотвору та морфеміки, а саме як створення автоматизованої системи морфемно-словотвірного аналізу (скорочено АСМСА. У лабораторії комп’ютерної лінгвістики Київського національного університету імені Тараса Шевченка протягом 3-ох років ведеться робота над АСМСА. У створенні цієї системи було використано досвід світової комп’ютерної лексикографії (частотний словник З.Ф.Оліверіуса “Морфемы русского языка”, кореневий словник Д.С.Уорта “Русский словообразовательный словарь”; морфемний словник чеської мови за редакцією Е.Славічкової); практику і теорію укладання відомих морфемних та словотвірних словників української мови, зокрема Словника афіксальних морфем української мови, Кореневого гніздового словника української мови та автоматизованої системи “Морфемно-словотвірний фонд української мови”; а також чималий досвід комп'ютерної лексикографії лабораторії комп’ютерної лінгвістики (www.proling.com): Частотний словник сучасної української поетичної мови; Ідеографічний словник української фразеології; Граматичний словник українських дієслів; Українсько-італійський словник українських дієслів; Тезаурус (словник синонімів) української мови

Мета цього проекту полягає у створенні автоматизованої системи, що структурується на:

1) дві лінгвістичні бази даних: морфемну і словотвірну; та на

2) морфемний і словотвірний аналізатори, що розглядаються як надійні лінгвістичні інструменти мовознавчих досліджень, здатні працювати в режимах пошуку, класифікації, морфемного та словотвірного аналізів на великих лексичних масивах.

Система АСМСА створювалася на базі ≈ 170 тис. слів української мови і структурується на два модулі та чотири блоки: 1) морфемний модуль – морфемна база даних, де аналізується морфна структура словоформ; 2) словотвірний модуль – словотвірна база даних, де аналізується словотвірна структура словоформ. Кожен модуль складається з двох блоків: 1) блок-словник; 2) блок-аналізатор. Структуру АСМСА можна представити у вигляді такої блок-схеми:

Як показує блок-схема АСМСА, передбачається така логіка виконання завдань: укладання морфемного електронного словника (1), на базі якого створюється морфемний аналізатор (2), що виконує функцію лінгвістичного класифікатора у процесі укладання електронного словотвірного словника (3), на базі якого створюється система автоматизованого словотвірного аналізу (4).

Така послідовність завдань зумовлена робочою гіпотезою: побудова словотвірного гнізда як статті електронного словотвірного словника здійснюється на базі вибірки всіх спільнокореневих слів мови. Створення вибірок спільнокореневих слів само по собі є складним і трудомістким завданням і таких завдвнь у процесі дослідження виникало чимало. Єдиний вихід із цього становища – формалізація матеріалу на всіх етапах його опису, яка дає можливість створювати програмні інструменти лінгвістичного аналізу.

На першому етапі необхідно було створити формалізований опис морфних структур слів, який би дозволив автоматизувати групування слів з одним коренем. Першочерговим завданням було створення морфемної бази даних, яка укладалася на основі комп’ютерної лексико-граматичної бази української мови, де слова представлені у графемному записі з граматичною індексацією частин мови.

Графемний запис слів в електронному морфемному словнику у деяких випадках був доповнений фонемним, що зумовлено організацією морфних структур ряду слів та особливостями української графіки. Йдеться про фонемне представлення йотованих я, ю, є, ї, яке зроблено автоматизовано за лінгвістичним алгоритмом, що моделює всі можливі фонетичні позиції, в яких я, ю, є, ї передають два звуки. Автоматизація фонетичного представлення графем я, ю, є, ї забезпечує постійне перетворення графічного запису у фонемний і навпаки, що дозволяє проводити правильну морфну сегментацію на базі вихідних словоформ тексту.

Інформаційний макет морфемного словника та його ідеологія визначалися специфікою електронного характеру та перспективою створення на його основі автоматизованої системи морфемного аналізу.

Суть запропонованої формалізації морфних структур слів полягає у моделюванні структурно-функціональних зв'язків морфів у слові: представлення кожної морфної структури слова у вигляді лінгвістичної моделі, яка визначає межі і тип кожного морфа. Формалізований опис морфної структури слова предбачає моделювання структурних відношень морфів на двох площинах організації слова як мовного знака: формалізація структури плану вираження та плану змісту.

Межі і тип кожного морфа визначаються типовими позначками: – префікс, – корінь, – суфікс, – інтерфікс, –флексія, – постфікс: якщо морфна структура слова містить нульові афікси (суфікси чи флексії), які не мають субстанціонального вираження, то такі афікси позначаються знаком – , або знаком – , який позначає нульовий суфікс у позиції між двома субстанціально вираженими морфами.

Така лінгвістична модель дозволяє автоматично описати кожну морфну структуру через програмну процедуру: заледеніти / P2R5І7S8F10 – де латинськими літерами позначається тип морфа P – префікс, R – корінь, S – суфікс, F – флексія, І – інтерфікс, X – постфікс, а цифрами – межі морфа через порядковий номер (із початку слова) кінцевої графеми кожного морфа R4I5R8S9F10 – льод-о-різ- SYMBOL 198 \f "Symbol" \s 14 Ж - SYMBOL 198 \f "Symbol" \s 14 Ж (позначка нульового афікса також визначається як графема). Формалізований опис морфної структури слова у вигляді програмної процедури відображає функціональну закономірність організації слова на морфемному рівні – PRІSF, а субстанціальне вираження цієї структури представлено через кількісно-графемну модель (за – 2; лед – 5; ен – 7; і – 8; ти – 10). Графемно-цифрові межі морфів в інтерфейсі словника подані через латинську літеру за порядковим номером в алфавіті: R4I5R8S9F10 = RD(4)IE(5)RH(8)SJ(9)FK(10). Автоматично сформована програмна процедура моделі морфної структури, пов́язана з формою вираження кожного слова МБД, дає повну лінгвістичну інформацію про морф, його структурні відношення з іншими морфами і визначається як робоча одиниця морфемної бази даних (представленої lex-файлом).

Згідно із розробленими принципами формалізації морфемний аналіз проводився за допомогою зручного комп’ютерного інструмента, роботу якого забезпечує файл morfem.exe. Кожне слово lex-файлу представляється на окремій комп’ютерній картці

Рис.1.

Кожне поле електронної картки виконує свою функцію:

1 поле. дуло. Екран картки, на якому висвітлюється слово (Рис.1). Визначення морфної структури слова здійснюється в такий спосіб: на екрані є рухомий курсор, який пересувається мишею вліво або вправо по графемному запису слова; навівши курсор на місце морфного шва, потрібно мишею актуалізувати віконце, в якому висвітлюються позиційно-функціональні типи морфів; вибравши мишею потрібний тип морфа, можна автоматично приписати йому позначку у верхньому індексі слова (Рис.2).

Рис.2

поле. № слова у морфемній базі даних (МБД), що дозволяє здійснювати навігацію по lex-файлу (Рис.1).

поле.<<< – лівобічна навігація. Дозволяє повернутися до попереднього слова у МБД (Рис.1).

поле. >>> – правобічна навігація. Дозволяє перейти до наступного слова у МБД (Рис.1).

поле. Reset. Дозволяє виправити інформацію про морфну структуру слова (Рис.1).

поле. Save. Дозволяє запам’ятати інформацію про визначену морфну структуру слова у вигляді програмної процедури. Запис інформації здійснюється на res.ini – файли у такому вигляді:

Рис.3

У процесі укладання електронного морфемного словника було враховано, що коренева система української мови характеризується високим ступенем омонімії та аломорфії, тому до однієї спільнокореневої вибірки можуть потрапити слова з омонімічними коренями, а слова з аломорфами одного кореня можуть бути згруповані в різні спільнокореневі класи.

В електронному морфемному словнику проблему аломорфії коренів було вирішено у такий спосіб: кожному кореневому морфу, що характеризується різними морфонологічними змінами, було приписано аломорф цього кореня у непохідному слові, тобто його первинний аломорф, який умовно у межах МБД можна назвати інваріантним коренем: за-лед-еніти – лід, льод-овий – лід. Інформація про інваріантний кореневий аломорф приписується кожному аломорфу однієї кореневої морфеми, що дозволяє автоматизувати ідентифікацію тотожних за значенням кореневих морфів, які субстанціально відрізняються хоча б однією графемою.

Омонімія кореневих морфів була знята приписуванням кожному омонімічному кореневому морфу цифрового коду, який дозволяє визначати корені-омоніми як різні одиниці морфемної бази даних: у іменнику вод-а визначається корінь вод1, а у дієслові вод-и-ти – корінь вод2.

Інформація про аломорфію та омонімію аналізованого морфа записується у 7-му полі картки файлу morfem.exe: Корінь – дул1 (Рис.1), а потім автоматично приписується до аналізованого слова з визначеною морфною структурою (програмною процедурою) у res.ini – файлі (Рис.3).

Паралельно з автоматизованим формуванням lex-файлу в Access створюється ще дві бази даних: база аломорфічних коренів та база омонімічних коренів. Зв’язок із цими БД здійснюється також через електронну картку файлу morfem.exe:

поле. Аналізований корінь. Це поле знаходиться у правому верхньому кутку картки (Рис.1). Для висвітлення на картці інформації про аломорфію та омонімію кореня це поле можна використовувати у двох режимах морфемного аналізатора: 1) у цьому віконці автоматично висвітлюється корінь, межі якого визначені у 1-му полі; 2) у разі потреби тут необхідно надрукувати корінь, інформацію про аломорфію або омонімію якого хоче отримати користувач-лінгвіст.

поле. Go (Рис.1). Натисканням миші на цю кнопку, актуалізується зв’язок кореня 8-го поля електронної картки з БД омонімічних та аломорфічних коренів. Інформація про корені-омоніми та кореневі аломорфи висвітлюється у 10-му та 11-му полях:

12 поле – Коментар, у якому подається необхідна для проведення морфемного аналізу інформація про лексичне значення омонімів, етимологічне тлумачення запозиченої лексики, пояснення складних випадків морфемного аналізу, тощо (Рис.1).

На сьогодні завершено роботу над створенням морфемного модуля АСМСА у робочому варіанті, який складається з трьох баз даних: 1) бази морфних структур слів ≈ 170 тис. слів; 2) бази аломорфічних коренів (≈ 2500 коренів); 3) бази омонімічних коренів (≈ 3100 коренів). Укладання морфемного словника та використання морфемного модуля в режимі лінгвістичного аналізу забезпечується автоматизованим інструментом, функції якого представлені на електронній картці файлу morfem.exe. Морфемний електронний словник потребує верифікації.

Формалізація морфних структур слів через їх опис у термінах програмних процедур МБД дозволила створити на основі цієї бази даних автоматизовану систему лінгвістичного аналізу, здатну виконувати цілий ряд завдань:

групувати лексику у спільнокореневі та спільноафіксальні класи;

класифікувати лексику за кількісно-морфними моделями;

створювати кореневі та афіксальні словники;

проводити морфемний аналіз вихідних словоформ.

У першу чергу морфемний аналізатор буде використано у процесі укладання електронного словотвірного словника української мови для виконання двох завдань: 1) автоматизованого групування лексики у спільнокореневі вибірки; 2) автоматизованої класифікації лексики у межах кожного спільнокореневого класу за кількісно-морфними моделями.

Групування лексики у спільнокореневі вибірки здійснюється за процедурою ідентифікації кореневих морфів, визначених у словах морфемної бази. У межах кожної спільнокореневої вибірки проводиться класифікація слів за кількісно-афіксальними моделями морфних структур слів. Кожна вибірка спільнокореневої лексики формує у межах АСМСА окреме поле, в якому моделі морфних структур слів із збереженою, але не актуалізованою інформацією про граматичний код, програмну процедуру, морфонологічні варіанти кореня, омонімічний код кореня та коментар, автоматизовано класифікуються за кількісно-морфними моделями. Враховуючи принципи словотвірної похідності про те, що: 1) морфологічні способи словотвору передбачають кількісно-афіксальне зростання морфної структури мотивованої основи словотвірної пари; 2) інтерфікси не вважаються словотвірними формантами і додаються у процесі словотвору до словотвірних суфіксів та префіксів; 3) складні слова переважно належать до першого такту словотвору – було розроблено формалізовані принципи опису словотвірних з’́язків між мотивуючим та мотивованим cловами, що дозволяє автоматично побудувати робочу гіпотезу-модель словотвірного гнізда, в якому кожен наступний словотвірний такт репрезентує слова з кількісно складнішими афіксальними структурами основ, ніж попередній словотвірний такт. Тобто, група слів кожної кількісно-афіксальної моделі основи слова є гіпотетичним тактом словотвірного гнізда.

Інструментарій цієї класифікації теж представлено на електронній картці файлу morfem.exe:

13. поле. Τree. (Рис.1). Ця кнопка дозволяє зробити перехід від морфемної бази даних до словотвірної чи навпаки. У 8-му полі – Аналізований корінь – набирається слово, що гіпотетично вважається 1-им мотивуючим словом словотвірного гнізда, а потім натискається кнопка Find.

14. поле. Find. (Рис.1). Натисканням цієї кнопки здійснюється автоматизоване групування спільнокореневої лексики та класифікація за словотвірними тактами гіпотетичного словотвірного гнізда, яке у вигляді дерева залежностей висвітлюється на екрані картки:

Рис.4

Приклад демонструє частину словотвірного гнізда слів із коренем -голод-. Кожна гілка словотвірного дерева відображає зв'язки словотвірної мотивації між вузловим словом, позначеним квадратиком з + чи – , із словами, що закінчують гілки цього ж вузла. Знак "+" вказує, що слово вузлове, тобто від нього відходить гілка, а знак "–" вказує, що ця гілка вже розгорнута. Моделювання структурно-мотиваційних зв’язків між словами межуючих словотвірних тактів здійснюється через встановлення відповідності між цифровими кодами слів морфемної бази даних: голодувати SYMBOL 174 \f "Symbol" \s 14 ® голодування (28871 - 28872), голодувати SYMBOL 174 \f "Symbol" \s 14 ® поголодувати (28871 –113329).

Класифікація слів спільнокореневої вибірки за словотвірними тактами є лише лінгвістичною гіпотезою, яка вимагає перевірки. Ставляться завдання: 1) перевірити правильність групування слів у спільнокореневі вибірки та розташування їх за словотвірними тактами; 2) в кожному похідному слові визначити словотвірну основу та словотвірний формант; 3) дописати інформацію про морфонологічні процеси, що відбуваються у кожному такті словотвору.

На цьому етапі робота проводитиметься лінгвістом, який використовує свої знання як носій української мови та як фахівець-мовознавець і будує словотвірне гніздо. Лінгвіст, копіюючи слово, у межах спільнокореневої вибірки зможе, у разі потреби, переносити його у той чи інший словотвірний такт за принципом словотвірної похідності.

Формалізований опис морфних структур, запропонований при укладанні електронного морфемного словника, дозволяє використовувати МБД як інструмент у проведенні автоматизованого морфемного аналізу на базі вихідних слофоформ тексту через поєднання МБД з іншими електронними лексикографічними системами. Зокрема морфемний аналізатор було використано для аналізу лексики Частотного словника сучасної української поетичної мови (ЧССПМ) – www.proling.com. Для цього було зроблено ідентифікаційний перехід між базами даних двох електронних словників: словоформа, взята з поетичних текстів, автоматично перетворюється у вихідну форму морфологічної парадигми слова і через відповідність граматичних кодів, які ідентичні в обох БД, та субстанціальне вираження вихідна форма Частотного словника зіставляється з робочою одиницею lex- файлу МБД. Таким чином у кожній вихідній формі слова ЧССПМ можна визначити морфну структуру.

Інтерфейс ЧССПМ був доповнений командами, які забезпечують здійснення різноманітних класифікаційних завдань у межах вибірки кожного поета ЧССПМ:

визначати типи морфних структур слів у вигляді моделей морфструктур МБД;

класифікувати лексику поетичної вибірки поета за визначеними морфструктурами;

укладати афіксальні та кореневі словники поетичної вибірки поета, актуалізуючи інформацію про слова, в яких ці морфи зустрілися.

Методологія проведення формалізованого лінгвістичного аналізу в АСМСА є узагальненням теоретичних і прикладних ідей сучасного мовознавства, що робить АСМСА надзвичайно ефективним і раціональним інструментом для фахівців-філологів у лінгвістичних дослідженнях та будь-яких користувачів. Ця методика може бути використана як еталонна при укладанні різноманітних електронних словників, картотек, автоматизованій класифікації лінгвістичного матеріалу, побудові навчальних комп'ютерних тренажерів, тестів тощо. АСМСА може розглядатися як джерельна база для укладання різноманітних електронних та паперових словників з морфеміки і словотвору, зокрема словника коренів, словника афіксів та ін., оскільки ця автоматизована система репрезентує великий лексичний матеріал (≈ 170 тис. слів), що дозволяє говорити про повноту лінгвістичного опису морфемної і словотвірної систем української мови.

У випадку передачі м'якості приголосних через сполучуваність з м'яким знаком беруться до уваги так звані морфографічні альтернації земл-я земель-н-ий.

Додав: Вірст.

LINGVØSTUDIJA

Сторінки

понеділок, 14 жовтня 2013 р.

Морфемно-словотвірний аналіз як інструмент лінгвістичних досліджень

Немає коментарів:

Дописати коментар

Свіжі новини