Лематизація твору Р. Іваничука "Черлене вино": статистичний аспект

Представлений метод обробки текстів — лематизація в аспекті статистичних досліджень. Її широке використання в алгоритмах пошукових систем, що дозволяє знайти більшу кількість результатів. Проведено статистичний аналіз тексту Р. Іваничука "Черлене вино".

Рубрика Литература
Вид статья
Язык украинский
Дата добавления 09.05.2020
Размер файла 1,8 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ЛЕМАТИЗАЦІЯ ТВОРУ Р. ІВАНИЧУКА «ЧЕРЛЕНЕ ВИНО»: СТАТИСТИЧНИЙ АСПЕКТ

Яйченя Ю.П., Кульчицький І.М.

Національний університет «Львівська політехніка»

Анотація. У статті представлений метод обробки корпусу текстів -- лематизація в аспекті статистич-них досліджень. Зазначено, що лематизацію широко використовують в алгоритмах пошукових систем, вона дозволяє знайти більшу кількість результатів, а не тільки результати за запитом введеної слово-форми. Проведено статистичний аналіз тексту Р. Іваничука «Черлене вино» за ознаками, як-от: розподіл за частинами мови словоформ тексту, розподіл за частинами мови лем словника тексту, розподіл значень частотності словоформ тексту, розподіл значень частотності лем словника тексту. У дослідженні додано загальні коефіцієнти слів в тексті, а також загальні коефіцієнти тексту. Об'єктом аналізу було обрано твір Р. Іваничука «Черлене вино». Предметом аналізу є лематизації твору Р. Іваничука «Черлене вино» і проведення статистичного аналізу результатів.

Ключові слова: корпусна лінгвістика, статистика, лематизація, словоформа, лема.

Yaychenya Yuriy, Kulchytskyi Ihor. Lematization of R. Ivanichuk's work "Red wine" in statistical aspects

Summary. The article presents a method for processing the corpus of texts by the method of lemmatization in the aspect of statistical research. Lemmatization is widely used in search engine algorithms. So, it allows you to find a larger number of results, and not just the results for the query word only in the form in which it was entered. According to the results of lemmatization of the work of R. Ivanychuk “Red wine”, a statistical analysis of it was carried out according to the following criteria: distribution of speech parts of the text word form, distribution of the speech parts by the text dictionary part, distribution of the frequency values of the word text forms, distribution of the frequency values by the text dictionary part and added common text word odds, as well as general text odds. It is worth noting that the calculation of the lemmatization result was car-ried out according to the number of word usage, word forms and word lemma, accrual of legomena for word forms and word lemma, the number of word forms and lem taken ten or more times, the number of characters of the extended alphabet in the text, as well as the number of sentences in the text. The object of analysis was selected by R. Ivanychuk's work “Red wine”. The subject of analysis is the implementation of the lemmatization of the work of R. Ivanichuk "Red wine", as well as the statistical analysis of the results of this lemmatization. The first task of morphological analysis (lemmatization) is to provide a definition of the normal form of the word from which the word form was formed, and a list of parameters that are part of this word form. The second in this case is to search for the desired word form in the dictionary and copy the morphological information corresponding to the found word form into the program.Lemmatization is widely used in search engine algorithms. So, it allows you to find a larger number of results, and not just the results for the query word only in the form in which it was entered. Lemmatization is also used when checking the uniqueness of text, web development, programming and compiling a semantic core. The practical application of statistical data was investigated on the basis of the data of lemmatization.

Keywords: corpus linguistics, statistics, lemmatization, word form, lemma.

Постановка проблеми. Лематизацію широко використовують в алгоритмах пошукових систем. Так, вона дозволяє знайти більшу кількість результатів, а не тільки результати за запитом слова тільки в тій формі, в якій воно було введено. її використовують при перевірці унікальності тексту, веб-розробках, програмуванні та складанні семантичного ядра. У статті пропонуємо розглянути та застосувати основні підходи для аналізу та обробки текстової інформації.

Аналіз досліджень і публікацій. Для сьогодення характерна величезна кількість студій пов'язаних зі статистикою, базою знань, пошуковими системами тощо. Обробка тексту -- є одним з найнеобхідніших завдань для класифікації документів [1; 5, с. 284]. Попередня обробка тексту використовується насамперед для автоматичної анотації документів. Про це детально можна дізнатись із наукових праць Л.Н. Шавердної, А.Ф. Осики, В.П. Леонова, які дають деталізований огляд наявних спроб автоматизації анотування текстів та показують в загальному характеристику проблеми у дослідженнях

Метою пропонованої статті є опис процесу лематизації тексту в статистичному аспекті. Об'єктом аналізу є твір Р. Іваничука «Черлене вино». предметом аналізу є здійснення лематизації твору та аналіз результатів дослідження.

Виклад основного матеріалу. При створенні корпусу використовують ряд процедур і програм, таких як: токенізація, лематизація, стемінг та синтаксичний аналіз [1, с. 38-41]. Токенізація -- це розбиття потоку символів природної мови на окремі значущі одиниці (токени, словоформи). Лематизація -- це процес формування початкової форми слова, виходячи з його інших словоформ. Стеммінг полягає в пошуку основи слова.

Завдання морфологічного аналізу полягає в забезпеченні визначення початкової форми слова. При розгляді поняття використовують його початкову форму. Наприклад, візьмемо слово: столів -- [стілець]. Для нього є різні форми: стільцем, стільця, стільця і так далі. Кожна форма відповідає ряду параметрів і характеристик, наприклад, рід, число чи відмінок, які характеризують дану словоформу. Крім того, кожне слово відповідає певній частині мови [7, с. 101--108].

У конкретному місці слово із заданою частиною мови в певній формі в ході машинної обробки даних необхідно формалізувати. Варто відзначити також, що подібна різноманітність створює проблеми при проведенні аналізу тексту. Проблема полягає в обробці всіх словоформ замість обробки єдиного слова. Уникнути проблемної ситуації дозволяють етапи морфологічного аналізу і синтезу.

Синтаксичний аналіз -- це процес аналізу синтаксичної структури тексту або частини тексту, заснований на порівнянні лінійної послідовності токенів (слів, токенів) мови з його формальної граматики.

У нашому дослідженні для створення корпусу тексту твору Р.Іваничука «Черлене вино» використовуємо процедуру лематизації. Для полегшення роботи з словами, визначенням частини мови та її граматичних категорій використовуємо два он-лайн словники: «Граматичний словник української літературної мови. Флексія» (опублікований в 2011 році і доступний на Лінгвістичному порталі (http://www.mova.info/grmasl.aspx)) і також «Словники України» (опублікований на порталі http://lcorp.ulif.org.ua/dictua/). Ці он-лайн ресурси допоможуть під час визначення частини мови, опису за граматичними категоріями. лематизація текст статистичний

В процесі лематизації тексту «Черлене вино» було обраховано наступні характеристики тексту, що представлені у таблиці 1.

Далі було підраховано показники, як-от: як розподіл за частинами мови словоформ тексту (див. таблицю 2), розподіл за частинами мови лем словника тексту (див. Таблицю 3), розподіл значень частотності словоформ тексту (див. таблицю 4), розподіл значень частотності лем словника тексту (див. таблицю 5), загальні коефіцієнти слів тексту (див. таблицю 6), загальні коефіцієнти тексту (див. таблицю 7). Всі дані внесені у таблиці.

Висновки. Статистичні методи у мовознавстві допомагають правильно організувати лінгвістичні спостереження, отримати об'єктивні дані, незалежні від суб'єктивного сприйняття дослідника, забезпечити надійність, точність, достовірність висновків. Головним завданням статистичної лінгвістики є застосування математичних методів для розкриття закономірностей функціонування одиниць мови у мовленні, а також у встановленні закономірностей будови тексту.

У статистичному дослідженні ідіостилю автора були використані кількісні методи, тобто підрахунок частоти вживання словоформ, лем, певних частин мови, а також і статистичні методи, які використовують різні формули для виявлення правил розподілу мовних одиниць у мовленні, для виміру зв'язків між мовними елементами, для встановлення тенденцій у розвитку та функціонуванні мови та для встановлення залежності між якісними та кількісними характеристиками мови.

Отже, маючи в розпорядженні числові показники, можна створити інструменти для ефективного аналізу текстів за допомогою лематизації.

Безумовно, створення статистичних (частотних) словників полягає в їхньому подальшому практичному застосуванні, а також може слугувати основою в різних сферах лінгвістичного аналізу. Оскільки українська мова має складну морфологію і велику кількість словоформ, було досить складно створити модель, яка б ефективно узагальнювала введені словоформи.

Список літератури:

1. Бук С. Квантитативна параметризація текстів Івана Франка: спроба проекту. Іван Франко: Студії та матеріали. Львів, 2010. URL: http://arxiv.org/abs/1005.5466 (дата звернення: 01.12.2019).

2. Бук С., Ровенчак А. Частотний словник повісті І. Франка «Перехресні стежки». Стежками Франкового тексту (комунікативні, стилістичні та лексичні виміру роману «Перехресні стежки»). Львів : Видав. центр ЛНУ імені Івана Франка, 2007. С. 138-369.

3. Гандзій О.А. Публіцистика Романа Іваничука: проблематика і поетика : автореф. дис. ... канд. філол. наук : спец. 10.01.01 «Українська література». Івано-Франківськ, 2011. C. 20.

4. Загнітко А., Данилюк І. Корпус текстів граматичної службовості. Прикладна лінгвістика та лінгвістичні технології. Довіра. Київ, 2013. C. 102-112.

5. Демська О.М. Текстовий корпус: ідея іншої форми. Нац. ун-т «Києво-Могилянська академія». Київ : Вид. дім «Києво-Могилянська академія», 2011. C. 284.

6. Крупа М. Лінгвістичний аналіз художнього тексту. Тернопіль, 2005. С. 17-43.

7. Кульчицький І.М. Технічні аспекти функціонування текстів у електронному інформаційному просторі. Український інформаційний простір. Число 2. Київський національний університет культури і мистецтв. Київ, 2014. C. 101-108.

8. Перебийніс В.І. Статистичні методи для лінгвістів : навч. посіб. Вінниця : Нова книга, 2001. 268 с.

9. Перебийніс В.С., Муравицька М.П., Дарчук Н.П. Частотні словники та їх використання. Київ : Наукова Думка, 1985. 204 с.

10. Проект ВЕСУМ. URL: https://github:https://github.com/brown-uk/dict_uk (дата звернення: 01.12.2019).

11. Роман Іваничук : бібліографічний покажчик / укладач Л. Панів. Львів : Вид. центр ЛНУ ім. Івана Франка, 2011. 405 с.

12. Тищенко В. Частота частин мови в різних функціональних стилях сучасної української мови. Питання структурної лексикології. Київ : Наукова думка, 1970. С. 215-224.

References

1. Buk, S. (2010). Kvantytatyvna parametryzatsiia tekstiv Ivana Franka: sproba proektu. Ivan Franko: Studii ta materialy. Lviv. URL: http://arxiv.org/abs/1005.5466 (accessed 01.12.2019).

2. Buk, S., & Rovenchak, A. (2007). Chastotnyi slovnyk povisti I. Franka “Perekhresni stezhky”. Stezhkamy Frankovoho tekstu (komunikatyvni, stylistychni ta leksychni vymiru romanu “Perekhresni stezhky”). Lviv: Vydav. tsentr LNU imeni Ivana Franka, s. 138-369.

3. Handzii, O.A. (2011) Publitsystyka Romana Ivanychuka: problematyka i poetyka: avtoref. dys. ... kand. filol. nauk: spets. 10.01.01 «Ukrainska literatura». Ivano-Frankivsk, s. 20.

4. Zahnitko, A., & Danyliuk, I. (2013). Korpus tekstiv hramatychnoi sluzhbovosti. Prykladna linhvistyka ta linhvistychni tekhnolohii. Kyiv: Dovira, s. 102-112.

5. Demska, O.M. (2011). Tekstovyi korpus: ideia inshoi formy. Nats. un-t «Kyievo-Mohylianska akademiia». Kyiv: Vyd. dim «Kyievo-Mohylianska akademiia», s. 284.

6. Krupa, M. (2005). Linhvistychnyyi analiz khudozhnoho tekstu. Ternopil, s. 17-43.

7. Kulchytskyi, I.M. (2014) Tekhnichni aspekty funktsionuvannia tekstiv u elektronnomu informatsiinomu prostori. Ukrainskyi informatsiinyiprostir. Chyslo 2. Kyivskyi natsionalnyi universytet kultury i mystetstv. Kyiv, s. 101-108.

8. Perebyinis, V.I. (2001). Statystychni metody dlia linhvistiv : navch. posib. Vinnytsia: Nova knyha, 268 s.

9. Perebyinis, V.S. Muravytska, M.P., & Darchuk, N.P. (1985). Chastotni slovnyky ta yikh vykorystannia. Kyiv: Naukova Dumka, 204 s.

10. Proekt VESUM. URL: https://github.com/brown-uk/dict_uk (accessed 01.12.2019).

11. Paniv, L. (2011). Roman Ivanychuk: bibliohrafichnyi pokazhchyk. Lviv: Vyd. tsentr LNU im. Ivana Franka, 405 s.

12. Tyshchenko, V. (1970). Chastota chastyn movy v riznykh funktsionalnykh styliakh suchasnoi ukrainskoi movy. Pytannia strukturnoi leksykolohii. Kyiv: Naukova dumka, s. 215-224.

Размещено на Allbest.ru


Подобные документы

  • Характеристика глибинної та поверхневої структури тексту. Сутність нестандартної сюжетно-композиційної лінії роману Р. Іваничука "Домороси". Особливості творчої діяльності письменника, аналіз його новел "Під склепінням храму", "Тополина заметіль".

    контрольная работа [93,5 K], добавлен 26.04.2012

  • Дослідження функціонування оніричного портрета в документальному тексті. Аналіз щоденників В. Чередниченко, біографічних романів В. Єшкілєва, Р. Іваничука, І. Корсака, Г. Пагутяк, В. Шкляра. Оніричні портрети в мемуарних творах та біографічних текстах.

    статья [23,7 K], добавлен 18.08.2017

  • Аналіз епічного твору Ніколаса Спаркса "Спіши любити" з використанням схеми. Рік створення твору. Доцільність визначення роду та жанру. Тематичний комплекс, провідні мотиви. Основні ідеї, конфлікт твору. Специфіка архітектоніки, композиція сюжету.

    реферат [16,9 K], добавлен 09.03.2013

  • Автобіографічні та біографічні відомості І.П. Котляревського, пов’язані з основою твору. "Енеїда" - епїчна, бурлескнотравестійна поема, перший твір нової української літератури. Правда та художній вимисел, проблематика твору, аналіз художніх образів.

    реферат [33,7 K], добавлен 01.12.2010

  • Джерела поеми "Лис Микита", її оригінальність. Композиція та стиль поеми. Ідейно-художнє удосконалення твору. Третє видання поеми новий етап на шляху дальшого вдосконалення твору. Четверте та п’яте видання поеми. Питання вибору основного тексту.

    дипломная работа [84,9 K], добавлен 05.11.2007

  • Передумови виникнення та порівняльна характеристика твору Свіфта "Мандри Гулівера". Аналіз модифікації людської нікчемності і апогей твору як сатиричний пафос на людину. Актуальність питання про нове виховання, як панацею для моральних вад суспільства.

    курсовая работа [31,7 K], добавлен 21.04.2009

  • Історія створення вірша С. Єсеніна "Клён ты мой опавший…". Швидкоплинне життя людини і відбиток тяжкого життєвого стану поету - тема цього твору. Композиційна будова твору, стиль його написання, доповнення і підкреслення відчуття туги лексичними засобами.

    доклад [13,1 K], добавлен 22.03.2011

  • Загальна характеристика документальних матеріалів. Друковані, рукописні, громадські та офіційні документи, кіноплівки і магнітні стрічки. Фронтальний і вибірковий аналіз. Проблема вірогідності документальної інформації. Процедури контент-аналізу.

    реферат [37,3 K], добавлен 24.06.2011

  • Основний текст, який спрямований на опис або написання іншого тексту - головна ознака, що визначає зміст усього твору Дж. Селінджера "Блакитний період де Дом'є Сміта". Структурний аналіз новели Селінджера за допомогою моделі "Автор-Текст-Читач".

    творческая работа [19,0 K], добавлен 22.11.2010

  • Соціально-комунікативні функції тексту за Ю. Лотманом, їх прояв у вірші М. Зерова "Навсікая". Особливості сегментації та стильових норм, які використовує в поезії автор. Наявність ліричного оптимізму, міфологізація тексту як основа пам'яті культури.

    реферат [12,3 K], добавлен 04.02.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.