Моделі та методи лінгвістичного аналізу тексту інтелектуальної системи оцінювання знань
Удосконалення алгоритму методу латентно-семантичного аналізу з урахуванням структури української мови. Інтеграція моделей аналізу українських текстів у системи оцінювання знань. Дослідження комп’ютерного моделювання процедур лінгвістичного аналізу тексту.
Рубрика | Иностранные языки и языкознание |
Вид | автореферат |
Язык | русский |
Дата добавления | 20.10.2018 |
Размер файла | 80,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ
НАЦІОНАЛЬНА БІБЛІОТЕКА УКРАЇНИ ІМЕНІ В. І. ВЕРНАДСЬКОГО
Автореферат
дисертації на здобуття наукового ступеня кандидата філологічних наук
Моделі та методи лінгвістичного аналізу тексту інтелектуальної системи оцінювання знань
10.02.21 - структурна, прикладна і математична лінгвістика
Комарницька Оксана
Київ - 2015
Дисертацією є рукопис.
Роботу виконано в Національній академії Державної прикордонної служби України імені Богдана Хмельницького, Державна прикордонна служба України.
Науковий керівник академік НАН України, доктор технічних наук, професор ШИРОКОВ Володимир Анатолійович,
Український мовно-інформаційний фонд НАН України, директор
Офіційні опоненти: доктор філологічних наук, професор
КОМПАНЦЕВА Лариса Феліксівна,
Національна академія Служби безпеки України,
завідувач кафедри теорії та практики перекладу
кандидат філологічних наук, доцент
ДОЦЕНКО Олена Леонідівна,
Гуманітарний інститут Київського університету імені Бориса Грінченка, доцент кафедри української мови
Загальна характеристика роботи
Дисертаційну працю присвячено проблемі розроблення моделей, методів і засобів інтелектуального опрацювання природної мови в системах автоматизованого контролю та оцінювання набутих знань студентами вищих навчальних закладів України.
Інтелектуальні лінгвістичні системи в наш час набувають все більшого поширення, що зумовлено контекстом еволюції світової інформаційно-комунікаційної системи. Особливо це стосується засобів інтелектуального автоматизованого опрацювання природної мови. Накопичення значних текстових масивів у глобальних мережах, прогрес у галузі створення технологій опрацювання інформації спричинили зростання актуальності досліджень, спрямованих на автоматичне опрацювання текстових даних, у тому числі автоматичний семантичний аналіз тексту (А. Анісімов, О. Большакова, Є. Гінзбург, І. Замаруєва, Л. Компанцева, О. Кургаєв, Н. Леонтьєва, Д. Ланде, О. Литвиненко, Ю. Марчук, K. Jones). Такий аналіз дозволяє експлікувати змістові характеристики тексту і подавати вихідний текстовий матеріал у вигляді семантичного структурованого опису (О. Єрмаков, О. Марченко, О. Малащук, О. Палагін, В. Шульгіна, T. Berners-Lee, J. Hendler, Р. Foltz, W. Kintsch, T. Landauer, O. Lassila). Семантика тексту, однак, на сьогодні має недостаній рівень формалізації, що стимулює необхідність розроблення спеціальних моделей, методів і лінгвістичних алгоритмів, які дозволяють виокремлювати з тексту певні смислові елементи (І. Вороніна, Р. Даревич, Б. Добров, А. Лучик, І. Мельчук, І. Ревзин, Ю. Рогушина, О. Селіванова, В. Широков). Викладене має пряму дотичність до проблематики інформатизації освітніх процесів у різних їхніх аспектах, серед яких значне місце посідають питання оцінювання якості навчання (А. Андрєєв, Т. Басюк, С. Бевз, І. Булах,Т. Гранкіна, О. Доценко, А. Манако, Ю. Рашкевич, В. Фетісов, С. Штангей). Адже процеси оцінювання знань за своєю природою нерозривно пов'язані з інтелектуальним семантичним аналізом та встановленням ступеня релевантності текстових даних відповідей студентів до еталонних текстів навчальних дисциплін, які надають змістову фактологічну базу оцінювання знань.
Сьогодні світовий і вітчизняний ринки пропонують чимало програмних продуктів для проведення діагностики знань тих, хто навчається, проте більшість сучасних систем тестування в основному ґрунтуються на завданнях закритого типу, і навіть за наявності питань відкритого типу, обробка відповіді здійснюється здебільшого напівавтоматично, за участі тьютора (експерта), або зводиться до перевірки повного збігу з еталонним варіантом відповіді. Тому надзвичайно актуальним є завдання створення такої системи оцінювання знань, яка б дозволила розв'язати проблему якісної автоматизованої обробки природномовних текстових відповідей.
Прогрес у цій ділянці пов'язується з інтелектуалізацією відповідних систем оцінювання знань, насамперед, у напрямі підвищення рівня їхнього лінгвістичного інтелекту. Отже, в основу перспективних систем оцінювання знань мають бути покладені такі лінгвістичні засоби, що сприймають не лише наперед задані текстові форми, але й спроможні опрацьовувати довільні природномовні тексти, виконуючи при цьому цілу низку доволі складних лінгвістично осмислених операцій морфологічного, синтаксичного, семантичного, прагматичного та інших різновидів аналізу тексту, й орієнтовані переважно на виявлення його змістових характеристик.
Таким чином, актуальність теми дисертації зумовлена необхідністю теоретичної розробки та практичного впровадження нових підходів у галузі прикладної лінгвістики, спрямованих на розроблення моделей, методів і засобів семантичного опрацювання текстів природної мови з орієнтацією на процеси оцінювання відповідей в інтелектуальних автоматизованих системах контролю знань студентів вищої школи.
Зв'язок роботи з науковими програмами, планами, темами. Розв'язанню зазначеного завдання було присвячено проект “Створення та впровадження програмних засобів пілотної системи поточного і підсумкового контролю знань студентів у вищих навчальних закладах”, що виконувався за Державною програмою “Інформаційні та комунікаційні технології в освіті і науці” на 2006-2013 роки, у рамках якого було проведено низку науково-дослідних робіт, де брали участь декілька десятків навчальних і наукових закладів України. Виконання проекту передбачало розв'язання не лише лінгвістичних, але й цілої низки доволі складних системотехнічних, інформаційних, програмних, організаційних та інших завдань. Проте основне інтелектуальне ядро проблеми було зосереджено в розробленні лінгвістичних моделей, методів та алгоритмів, які було реалізовано в лінгвістичній підсистемі інтелектуальної системи оцінювання знань студентів, що складає зміст дисертаційної роботи. Результати дисертаційного дослідження увійшли до науково-дослідних робіт: “Інтелектуальна система автоматизованого оцінювання знань у вищих навчальних закладах” (Звіт про НДР/НАДПСУ, ХДЦНТіЕІ. - Хмельницький, 2010. Номер державної реєстрації 0109V005890); “Побудова систем тестування з використанням методів штучного інтелекту” (Звіт про НДР, ШИФР 210-1019 I / НАДПСУ. - Хмельницький, 2010).
Метою роботи є удосконалення моделей і методів лінгвістичного аналізу природномовного тексту та створення на цій основі автоматизованих лінгвістично-програмних засобів, придатних для застосування в системах оцінювання знань студентів з природничих, військово-спеціальних та гуманітарних дисциплін.
Досягнення поставленої мети передбачає реалізацію таких завдань:
проаналізувати результати наукових досліджень у галузі розробки автоматизованих систем оцінювання знань та застосування в них моделей і методів лінгвістичного аналізу природномовного тексту, визначити шляхи їх удосконалення;
розробити методику дослідження комп'ютерного моделювання процедур лінгвістичного аналізу тексту в системі оцінювання знань;
побудувати концептуальну модель лінгвістичної підсистеми інтелектуальної системи оцінювання знань (ІСОЗ) та її функціональну структуру;
розробити метод семантичного порівняння нечіткої текстової інформації, придатний для застосування в українськомовних системах оцінювання знань;
удосконалити алгоритм методу латентно-семантичного аналізу (ЛСА) з урахуванням структури української мови;
забезпечити інтеграцію моделей і методів аналізу українських текстів у загальній структурі системи оцінювання знань;
експериментально дослідити розроблені моделі й оцінити ефективність використання результатів дослідження.
Об'єктом дослідження є природномовні тексти, що функціонують у системах тестового контролю знань студентів.
Предмет дослідження становлять лінгвістично-інформаційні моделі та методи аналізу текстової інформації у системах тестового контролю знань студентів.
Матеріалом дослідження стали тексти відповідей студентів на запитання системи, а саме 663 варіанти відповідей, а також текстові дані еталонної бази знань для визначення релевантності відповідей, яку було сформовано з навчально-методичних матеріалів, підручників, конспектів лекцій, посібників таких навчальних дисциплін, як “Маркетинг інтелектуальної власності” (81,912 тис. слів), “Зв'язок у ДПСУ” (79,357 тис. слів), “Інформаційно-телекомунікаційні системи ДПСУ” (112,481 тис. слів), “Основи інформатики і програмування” (241,782 тис. слів), “Обчислювальна техніка” (133,171 тис. слів), “Комп'ютерна графіка” (55,468 тис. слів), “Економіка підприємства” (177,683 тис. слів), “Економічна інформатика” (106,354 тис. слів).
Методи дослідження. Для вирішення поставлених завдань було використано комплекс взаємопов'язаних методів дослідження: загальнонаукові - методи аналізу, синтезу, порівняння, узагальнення, описовий метод, дедуктивно-індуктивний метод для аналізу та визначення проблем, пов'язаних із розробкою моделей лінгвістичного аналізу тексту в системі оцінювання знань та розробки відповідної концепції побудови таких моделей; лінгвістичні - структурний метод, зокрема методика дистрибутивного аналізу для встановлення характеристик і функціональних властивостей мовної одиниці на підставі її оточення, конструктивний метод для інтерпретації значення за допомогою визначення елементарних складників і зв'язків між ними, представлення інформації в автоматизованих системах аналізу й розпізнавання природної мови; лінгвоаналітичні (методи графематичного, морфологічного, передсинтаксичного, синтаксичного, семантичного аналізу), статистичні (латентно-семантичний аналіз), математичні методи (теорії нечітких множин, формалізації, математичного моделювання) та методи штучного інтелекту - для розроблення алгоритмів аналізу та порівняння текстів.
Наукова новизна одержаних результатів визначається таким:
уперше розроблено алгоритм семантичного порівняння нечіткої текстової інформації (відповідей на запитання, що подані студентом природною мовою в довільній формі, із варіантами правильних відповідей), в якому формалізовано опис лінгвістичної структури навчального контенту та відповіді. Розроблений алгоритм передбачає автоматичну конвертацію відповіді студента природною мовою до внутрішньосистемного вигляду, екстракцію лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Застосування розробленого алгоритму дозволяє усувати помилки, що можуть бути у вихідному тексті (неправильні закінчення, нестандартні скорочення тощо), визначати належність вихідного тексту до певної предметної сфери, виявляти ступінь семантичної подібності відповіді й еталонного варіанту, формувати загальну оцінку відповіді на питання за комплексним показником;
розроблено підсистему лінгвістичного аналізу тексту на основі моделей штучного інтелекту як складову функціональної структури ІСОЗ;
удосконалено алгоритм методу латентно-семантичного аналізу в таких аспектах: на етапі формування частотної матриці індексованих слів застосовано алгоритм семантичного порівняння нечіткої текстової інформації, унаслідок чого індексовані слова (терми) замінюються лексичними одиницями із баз даних: “Словник”, “Абревіатура”, “Скорочення”, “Власні назви”, “Фрейми”, “Ключ” тощо; процедуру стемінгу замінено на лематизацію на основі результатів автоматичного морфологічного аналізу текстів задля забезпечення більш високої якості роботи алгоритму; застосовано алгоритми нечіткого пошуку, а саме вдосконаленого варіанта метрики Левенштейна для виправлення некоректно поданих слів.
Практичне значення одержаних результатів полягає у можливості застосування розроблених методів та алгоритмів в інструментальних засобах і системах для проведення тестування з основних видів контролю - поточного, модульного, рейтингового, підсумкового. У розробленій системі передбачено такі види тестових завдань: а) відкриті завдання із короткою відповіддю (число або одне слово/словосполучення); б) завдання, що передбачають точну відповідь у вигляді правила, визначення, теореми тощо; в) логічну відповідь (вибір із множини, упорядкування за ознакою, доведення тощо); г) завдання, відповіді на які повинні бути подані природною мовою у довільній формі - математичних викладень або тексту.
На відміну від традиційних підходів до автоматизованого контролю знань, застосування запропонованих нових та удосконалених методів, моделей та алгоритмів надає можливість: виявляти латентні асоціативно-семантичні залежності у множині документів; частково усувати омонімію, полісемію та синонімію; виправляти слова, що написані студентом з орфографічними та технічними помилками; ураховувати синтаксичні відношення, логіку побудови терм у контексті предметної сфери тощо.
За результатами випробовувань дослідного зразка Інтелектуальної системи оцінювання знань Державним комітетом України з питань науки, інновацій та інформатизації рекомендовано здійснити використання одержаних результатів шляхом передання програмного комплексу та технічної документації до нього провідним навчальним закладам МОН України.
Особистий внесок здобувача. Основні наукові та практичні положення і результати одержані особисто авторкою дисертаційного дослідження. У наукових працях, що написані у співавторстві, дисертантці належить таке: [1], [2] - функціональна структура лінгвістичної підсистеми ІСОЗ; [3] - методи діагностики сформованості інтелектуальних знань і вмінь курсантів-прикордонників; [4], [7], [18] - алгоритм латентно-семантичного аналізу текстової інформації.
Апробація результатів дослідження. Основні положення дисертаційного дослідження обговорено та схвалено на чотирьох міжнародних науково-практичних конференціях: “Військова освіта та наука: сьогодення та майбутнє” (Київ, 2011), “Актуальні проблеми викладання іноземної мови професійного спілкування у вищих навчальних закладах на сучасному етапі” (Харків, 2011), “Прикордонна безпека: теорія і практика” (Мінськ, Республіка Білорусь, 2013), “Військова освіта і наука: сьогодення та майбутнє” (Київ, 2014); на шести всеукраїнських науково-практичних конференціях: “Освітньо-наукове забезпечення діяльності правоохоронних органів і військових формувань України” (Хмельницький, 2010, 2011), “Сучасні технології вищої освіти” (Одеса, 2012), “Актуальні проблеми підвищення якості підготовки фахівців у галузі економічного розвитку України” (Хмельницький, 2011, 2012, 2013).
Публікації. Основні положення дисертаційної роботи опубліковано в 21 друкованій праці, серед яких 10 публікацій у фахових наукових виданнях (1 з яких - міжнародна стаття, ще 1 індексується міжнародною наукометричною базою Index Copernicus), 10 тез доповідей - у збірниках матеріалів конференцій (п'ять із них - міжнародні) та 1 свідоцтво про реєстрацію авторського права на твір.
Обсяг і структура роботи. Дисертаційна робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел (210 найменувань), містить 22 рисунки, 13 таблиць, 10 додатків (34 сторінки). Повний обсяг дисертації- 209 сторінок, основний зміст викладено на 152 сторінках.
Основний зміст роботи
У вступі обґрунтовано актуальність теми дослідження, сформульовано мету, визначено завдання, об'єкт, предмет, описано матеріал і методи дослідження, наукову новизну одержаних результатів, окреслено практичне значення праці, подано відомості про апробацію основних положень дисертації, а також структуру й обсяг роботи.
У першому розділі “Теоретичні основи дослідження систем оцінювання знань та застосування в них лінгвістичних методів” окреслено ступінь розробки проблеми та викладено теоретичні положення щодо ключових питань дисертації, зокрема: розглянуто системи оцінювання знань студентів у сучасній вищій школі, проаналізовано процес інформатизації та інтелектуалізації систем контролю знань, визначено їх переваги та недоліки, визначено проблеми автоматичного лінгвістичного аналізу тексту в контексті систем оцінювання знань та обґрунтовано необхідність розробки автоматизованої системи тестування, що дозволятиме обробляти й оцінювати природномовні відповіді студентів.
З'ясовано, що лінгвістична обробка природномовних текстів є однією з центральних проблем інтелектуалізації інформаційних технологій, зокрема в галузі освіти. Зауважимо, що за останні роки у вищих навчальних закладах усе ширше використовуються автоматизовані засоби оцінювання знань, зокрема автоматизовані системи тестування. Їхніми перевагами вважаються: можливість достатньо повного охоплення змісту навчальної дисципліни шляхом уведення до системи великої кількості запитань; зручність створення та модифікації тестових матеріалів; невелика тривалість процесів тестування; можливість автоматизації процесів контролю й оцінювання результатів; інтеграція систем контролю знань з базами даних тощо.
Проте, сучасним системам тестування притаманні певні недоліки: тести орієнтовані на короткі відповіді, не передбачено самостійної відповіді на запитання; утруднена підготовка тестів, які спрямовані на перевірку творчих здібностей і логічного мислення; тестування не передбачає перевірки розгорнутих природномовних робіт тощо. До цього варто додати таку ваду, як досить високу вірогідність необ'єктивної оцінки, пов'язану зі стереотипним ставленням викладачів до студентів. Не варто виключати і корупційну складову в процесі оцінювання знань.
Отже, у ході автоматизованого оцінювання знань студентів виникають протиріччя: 1) між ефективністю процедури тестового контролю знань та об'єктивністю оцінки знань; 2) між необхідністю здійснення інтелектуального лінгвістичного аналізу відповідей у ході оцінювання знань і відсутністю (недосконалістю) відповідних технологічних інструментів, які базуються на адекватних лінгвістично-інформаційних моделях.
Таким чином, новітній вектор модернізації системи вищої освіти вимагає не лише інтелектуалізації змісту освіти, але й інноватизації та інформатизації процесів діагностування навчальних досягнень студентів. Необхідним елементом забезпечення цих процесів є розробка та впровадження сучасних систем автоматизованого контролю знань, здатних обробляти й оцінювати відповіді, подані природною мовою в довільній формі. Для цього, власне, і потрібні засоби, спроможні забезпечувати здійснення семантичного аналізу тексту.
До кола завдань, що вирішуються засобами семантичного аналізу тексту належать: семантичний пошук, багатоцільове опрацювання тексту, оцінювання природномовних відповідей студентів у системах контролю знань. Останнє завдання, як правило, зводиться до порівняння двох і більше текстів з деяким “еталонним текстом”, який вважається репрезентантом правильної відповіді. Проте найпоширеніші програмні засоби, які використовуються для тестування, мають занадто вузьку функціональність. Переважно в їхньому репертуарі є лише одна можливість: вибір одного або декількох із заздалегідь підготовлених, фіксованих варіантів. Сучасні автоматизовані системи контролю знань інколи, правда, містять завдання відкритого типу, однак у більшості з них відповідь зараховується як правильна, коли вона повністю збігається з одним із еталонних варіантів тексту, не допускаючи при цьому жодних варіацій форми відповіді без зміни її змісту. Наведені чинники значно знижують спроможність автоматизованих систем щодо об'єктивної оцінки рівня знань студентів, збільшуючи обсяги “ручного” опрацювання студентських відповідей викладачами та змушуючи їх концентруватися на технічних деталях, далеких від предмета оцінювання.
З викладеного випливає необхідність побудови комплексних лінгвістичних моделей, адаптованих до формального представлення в системах оцінювання знань, вільних від перелічених вище вад.
У другому розділі “Методологічні засади та концептуальне моделювання систем лінгвістичного аналізу тексту в контексті їхнього застосування в системах оцінювання знань” досліджено моделі та методи семантичного аналізу тексту, розроблено концептуальну модель лінгвістичної підсистеми інтелектуальної системи оцінювання знань та її функціональну структуру, запропоновано методику дослідження моделювання процедур лінгвістичного аналізу тексту в системі оцінювання знань, а також описано етапи процедури застосування відповідних методів і прийомів аналізу.
Одним з найголовніших завдань прикладної лінгвістики є розв'язання проблеми якісної автоматизованої обробки природної мови. Це вимагає залучення цілої низки наукових дисциплін та їхніх методів, зокрема, методів комп'ютерної, когнітивної, математичної лінгвістики, теорії штучного інтелекту, семантичних мереж, нейрокібернетики, логіки тощо. Комплексне застосування засобів, моделей і методів цих наукових галузей у принципі дозволяє створити ефективний інструментарій опрацювання природномовної текстової відповіді студентів. Але оскільки в роботі йдеться про систему оцінювання знань, де опрацьовуються природномовні відповіді на запитання відкритого типу, то на перший план висувається семантична складова лінгвістичного аналізу та екстракція знань із текстової відповіді.
У результаті детального аналізу сучасного рівня розвитку моделей і методів семантичного аналізу природномовних текстів у дисертаційному дослідженні було запропоновано власну методологію побудови таких моделей. Обґрунтовано твердження про те, що найбільш перспективними та затребуваними методами обробки природномовних текстових відповідей з метою екстракції та репрезентації семантики мають бути системи, що ґрунтуються на ефективному поєднанні лінгвістичних технологій аналізу (графематичного, морфологічного, синтаксичного, семантичного), зокрема із застосуванням онтологій, та методу латентно-семантичного аналізу, що дозволить виявляти приховані асоціативні залежності всередині природномовних текстів. Таке поєднання дає можливість урахувати та частково елімінувати недоліки, що притаманні обом методам, та удосконалити процес обробки природномовної відповіді шляхом комбінування переваг розглянутих лінгвоаналітичних та статистичних методів.
У розробленій лінгвістичній підсистемі ІСОЗ реалізовано спробу реалізувати інтеграцію технологій експліцитного семантичного аналізу, латентно-семантичного аналізу, методів теорії нечіткої логіки, штучного інтелекту. Для автоматизації перевірки відповіді, поданої у текстовому форматі природною мовою, було розроблено методику порівняння такої відповіді зі зразком (зразками) правильної відповіді, яку було використано при формулюванні концептуальної моделі відповідної системи, що передбачає створення теоретичних засад, розбудову загальної схеми системи та структури її окремих складників, а також зв'язків між ними, розроблення необхідних різновидів забезпечення системи (загальносистемного, лінгвістичного, алгоритмічного, математично-програмного, інформаційного, організаційного та ін.). Безперечно, розроблення лінгвістичного забезпечення системи посідає одне з центральних місць у цій роботі, оскільки основні об'єкти системи мають природномовне походження. У процесі виконання дослідження розроблено концепцію побудови інтелектуальної автоматизованої системи для проведення контролю знань студентів у вищих навчальних закладах, яка включає: математичний апарат теорії нечітких множин, засоби теорії лінгвістичних моделей; систему штучного інтелекту та відповідну базу знань. Перелічені аспекти складають теоретичну, методичну й операціональну базу побудови інтелектуальної автоматизованої системи контролю знань.
Функціональну структуру зазначеної ІСОЗ наведено на рис. 1.
Завдання лінгвістичної підсистеми на етапах морфологічного, синтаксичного, семантичного та прагматичного аналізу полягає у зменшенні різноманіття можливих значень слів та їхніх взаємозв'язків у контексті однозначної інтерпретації вхідних даних, що належать до конкретної предметної сфери.
Важливу роль при аналізі тексту відіграє інтегрована база даних, яка містить інформацію про морфологію, синтаксис, семантику і прагматику слів.
Рисунок 1 - Функціональна структура ІСОЗ та методика дослідження
Методика дослідження складається з шести етапів. На першому етапі було проаналізовано сучасні системи оцінювання знань студентів ВНЗ, досліджено процеси інформатизації та інтелектуалізації систем контролю знань, визначено проблеми автоматичного лінгвістичного аналізу тексту із застосуванням методів спостереження, аналізу, синтезу, порівняння, узагальнення, описового методу, дедуктивно-індуктивного методу. Відповідні результати представлено у розділі 1.
На другому та третьому етапах, відповідно, було визначено концепцію побудови та розроблено функціональну структуру лінгвістичної підсистеми ІСОЗ. Для побудови концептуальної моделі дослідження було застосовано метод моделювання, елементи структурного методу, зокрема методику дистрибутивного аналізу для встановлення характеристик і функціональних властивостей мовної одиниці на підставі її оточення, методику компонентного аналізу, орієнтовану на розроблення функціональної структури лінгвістичної підсистеми. Відповідні результати представлено у розділі 2.
На наступному, четвертому етапі, розроблено технології, моделі та алгоритми лінгвістичного аналізу тексту ІСОЗ. Це передбачає використання таких методів дослідження, як: конструктивний метод для інтерпретації значення за допомогою визначення елементарних складників і зв'язків між ними, представлення інформації в автоматизованих системах аналізу й розпізнавання природної мови; зіставний метод спрямовано на встановлення спільних і відмінних рис між текстами відповіді та зразка на різних мовних рівнях; лінгвоаналітичні (методи графематичного, морфологічного, синтаксичного, семантичного аналізу), статистичні (латентно-семантичний аналіз), математичні методи (теорії нечітких множин, формалізації, математичного моделювання) та методи штучного інтелекту - для розроблення алгоритмів аналізу та порівняння текстів. Результати представлено у розділі 3.
На п'ятому та шостому етапах дослідження, відповідно, було створено бази даних та знань і розроблено програмно-алгоритмічне забезпечення ІСОЗ із застосуванням методів об'єктно-орієнтованого програмування та методів розпізнавання, вилучення, формалізації. Результати представлено у розділі 4.
У третьому розділі“Лінгвістична підсистема інтелектуальної системи оцінювання знань” викладено основні складові лінгвістичної підсистеми інтелектуальної системи оцінювання знань. Тут подано моделі і методи формалізованого опису лінгвістичної структури, на підставі та з використанням яких здійснюється розроблення відповідних алгоритмів аналізу. Розв'язання поставленого завдання передбачає виконання декількох кроків, які мають цілком визначений і лінгвістичний і системотехнічний смисл, а саме: автоматичну конвертацію відповіді студента природною мовою до внутрішньосистемної репрезентації, екстракцію лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу.
На формальному рівні текст подається у вигляді скінченної послідовності символів з певного (також скінченного) набору, який називається узагальненим алфавітом. До цього алфавіту включено не лише літери певної мови, але й інші символи, що можуть трапитися на письмі (знаки пунктуації, цифри, спеціальні символи тощо). Отже, найзагальніше формальне представлення тексту виглядає так:
Т = х1*х2*…*хk, хi А, А = {a1, a2, …, aN},
де * - операція конкатенації.
Формалізація текстової структури відповіді студента передбачає розроблення методів і лінгвістичних алгоритмів (процедур), які дозволяють виокремити з такої послідовності лінгвістично значущі об'єкти - морфемного, лексичного, синтаксичного, семантичного та інших мовних рівнів, які імпліцитно містяться у формальній послідовності символів зі скінченного алфавіту А. Зазначені лінгвістичні процедури розподіляють на операції графематичного, морфологічного, передсинтаксичного, синтаксичного та інших різновидів аналізу, у процесі застосування яких вдається деталізувати лінгвістичну структуру об'єкта, що піддається формалізації.
Суттєвим виявом нечіткості природномовних висловлювань, а конкретно письмових текстових відповідей студентів, є неправильне написання слів (пропуск, вставка, транспозиція букв), вживання скорочень тощо, що загалом не впливає на семантичне наповнення та, відповідно, на правильність відповіді, проте розцінюється традиційними системами тестування як помилка і, як результат, істотно знижує якість оцінювання.У дисертаційному дослідженні запропоновано застосувати до лінгвістичних об'єктів методи нечіткої логіки як інструмент, що дозволяє певним чином формалізувати процес обробки природномовної відповіді студентів, поданої в довільній формі, та процедуру її оцінювання.
Для виділення семантики із природномовної текстової відповіді та її порівняння з еталонним варіантом у розробленій ІСОЗ застосовано метод латентно-семантичного аналізу, який дозволяє на підставі оцінки кореляції між словами та текстами зробити висновок про ступінь подібності змісту цих слів чи груп слів. Проте, метод ЛСА для цілей цієї роботи необхідно вдосконалити, оскільки він не враховує суттєву лінгвістичну інформацію (порядок слів у реченні, ключові слова, помилки), унаслідок чого нівелюються синтаксичні відношення, логіка та морфологія. Метод ЛСА в поєднанні з лінгвістичними технологіями аналізу тексту (морфологічного, синтаксичного, семантичного аналізу) дозволяє значно покращити процедури екстракції, репрезентації та аналізу семантичних характеристик текстової відповіді.
З огляду на викладене в рамках дисертаційного дослідження розроблено метод семантичного порівняння нечіткої текстової інформації (відповідей на запитання, що подані студентом природною мовою в довільній формі, із варіантами правильних відповідей), в якому формалізовано опис лінгвістичної структури навчального контенту та відповіді. Розроблений алгоритм застосовується під час здійснення латентно-семантичного аналізу на етапі формування частотної матриці індексованих слів (терм) і передбачає автоматичну конвертацію відповіді студента природною мовою до внутрішньосистемного вигляду, екстракцію лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Також у лінгвістичній підсистемі запроваджено ще одне вдосконалення методу ЛСА, унаслідок чого індексовані слова (терми) замінюються лексичними одиницями із баз даних, що містять перелік слів в усіх відмінках, перелік скорочень і значень абревіатур словосполучень, перелік ключових слів, котрі використовуються для опису процесів і явищ предметної сфери; процедуру стемінгу замінено лематизацією на основі результатів автоматичного морфологічного аналізу текстів задля забезпечення більш високої якості роботи алгоритму. Цей підхід дозволив: виявляти латентні асоціативно-семантичні залежності у множині документів; частково усувати омонімію, полісемію та синонімію; виправляти слова, що написані студентом з орфографічними та технічними помилками; враховувати синтаксичні відношення, логіку побудови терм у контексті предметної сфери тощо. Це значно розширює наукове та прикладне значення удосконаленого методу латентно-семантичного аналізу.
Застосовано алгоритми нечіткого пошуку, а саме вдосконаленого варіанта метрики Левенштейна для виправлення некоректних слів. Кожний текстовий рядок подається вектором у N-вимірному просторі, де N - кількість символів у рядку. Для нечіткого порівняння текстової інформації у відповідях студентів під час тестування було удосконалено алгоритм, в якому еталонний текст і текст відповіді підлягають розподілу на окремі лексеми, після чого здійснюється нечіткий пошук збігу за словами у зразку і відповіді із застосуванням метрики Левенштейна. Формування загальної оцінки відповіді здійснюється за комплексним показником, в якому враховується наявність у відповіді слів, що присутні у зразку (з урахуванням нечіткості), відповідність структур зразка і відповіді.
У дослідженні застосовано моделі штучного інтелекту для порівняння текстової інформації за змістом на етапах семантичного та прагматичного аналізу. Під час здійснення процедури семантичного аналізу знання подаються у вигляді семантичної мережі, що дозволяє інтерпретувати предметну галузь у вигляді понять та відношень між ними. Під час прагматичного аналізу визначається належність відповіді до визначеної предметної сфери. Семантичний і прагматичний аналіз запропоновано проводити на основі використання нейромережі. Перший шар нейромережі містить дві групи нейронів. До цього шару вноситься вхідна інформація - відповідь і зразок. Основна обробка інформації реалізується в наступних шарах нейронів, в яких здійснюється семантичний аналіз відповіді. Для отримання результату перевірки використовується останній шар, який відображує ступінь ідентичності двох текстів за змістом.
У цьому розділі наведено детальний приклад роботи лінгвістичної підсистеми ІСОЗ, який відображує процеси аналізу, порівняння та оцінювання природномовної відповіді студента.
Отже, концептуальна модель системи лінгвістичного аналізу текстової відповіді передбачає застосування вищезазначених алгоритмів, моделей і методів обробки природномовної інформації, що дозволяють розв'язувати низку актуальних лінгвістичних проблем, зокрема: виявляти латентні асоціативно-семантичні залежності у множині документів; частково усувати омонімію, полісемію та синонімію; виправляти слова, написані студентом з помилками; ураховувати синтаксичні відношення; визначати належність вихідного тексту до певної предметної сфери, формувати загальну оцінку відповіді на питання тестових завдань на основі комплексного показника, який ураховує результати роботи описаних елементів функціональної структури ІСОЗ. українська мова лінгвістичний комп'ютерний
У четвертому розділі “Функціональні структури модулів та система керування базами даних (знань) інтелектуальної системи оцінювання знань. Апробація результатів дослідження” розроблено функціональні структури модулів лінгвістичного аналізу, систему керування базами даних та здійснено апробацію та експериментальні дослідження одержаних результатів.
Першим етапом аналізу текстової відповіді є її нормалізація, що здійснюється за допомогою графематичного аналізу (токенізації) і передбачає виконання таких процедур: видалення нетекстових символів, виділення слів, цифр, формул, скорочень, приміток та інших елементів тексту, розподіл тексту на речення, абзаци.
Аналіз одиниць лексичного рівня, тобто слів є одним з найважливіших. До інструментарію цього різновиду аналізу входять різні словники, які містять лексичний репертуар та морфемну структуру лексичних одиниць, словозмінні парадигми тощо, а також безсловникові методи, які дозволяють здійснювати розбиття слова на морфеми за заданими алгоритмами, забезпечувати віднесення слів до словозмінних парадигматичних класів, виконувати процедури лематизації (редукції текстових словоформ до початкових, вихідних форм тощо). На цьому ж етапі частково здійснюється і граматичний аналіз, тобто ідентифікація лексико-граматичних класів та значень граматичних категорій текстових слів.
Вхідними даними процедури морфологічного розпізнавання є графемна структура тексту, та еталонні моделі, які складаються зі словозмінного словника, словника морфем (квазізакінчень, суфіксів, префіксів тощо), додаткових словників, що містять перелік абревіатур, скорочень, власних назв та ін. У розробленій інтелектуальній системі робота морфологічного аналізатора передбачає виконання таких процедур:
У першу чергу потрібно з'ясувати, чи є в таблиці бази даних “Словозмінний словник” елемент, ідентичний вхідній словоформі. Для цього виконується умова Wi Ts, де Ts - таблиця “Словозмінний словник”, базою для якого слугував електронний граматичний словник української мови, розроблений в Українському мовно-інформаційному фонді. Словник складається з двох частин: ліва частина вміщує множину слів у канонічній формі (реєстрові слова), у правій частині подано словозмінні парадигми. Застосування такого словника дозволяє розв'язати проблему граматичної ідентифікації, що передбачає формалізацію процесів парадигматизації та лематизації.
Однією з проблем, що виникають під час здійснення морфологічного аналізу природномовної відповіді є можливість написання студентом слів у тексті з помилками, які можуть виявлятися у вигляді пропуску, вставки, заміни, транспозиції графеми. Для розв'язання проблеми обробки неправильно написаних слів у дисертаційному дослідженні запропоновано використовувати метрику Левенштейна, удосконалений алгоритм якої дозволяє здійснити аналіз таких словоформ, виправити їх і привести до словникового вигляду. Після виконання такої процедури виправлена словоформа отримує набір граматичних характеристик ідентичної словоформи зі словника бази даних.
Поряд із неправильним написанням слова студент, відповідаючи на запитання тесту, може вжити абревіатуру, скорочення, власну назву тощо. Тому для ідентифікації та коректної обробки таких словоформ було створено відповідні таблиці бази даних: “Абревіатури” (Ta)“Скорочення” (Tsk), “Власні назви” (Tv). Вхідний текст у вигляді відповіді студента в цьому випадку підлягає перевірці на наявність мовних одиниць із вищезгаданих баз даних, за рахунок чого усуваються наведені вище недоліки морфологічного аналізатора і підвищується ефективність та об'єктивність оцінювання. Тобто в розглянутому випадку додатково перевіряються умови Wi Ta, Wi Tsk і Wi Tv. Якщо належність до баз даних установлено, вхідним словам приписується граматична інформація їхніх відповідників із вищезгаданих таблиць. Аналогічно розв'язується проблема зняття граматичної омонімії.
Таким чином, результатом здійснення морфологічного аналізу текстової відповіді є набір словоформ, для кожної з яких визначено її частиномовну належність і такі граматичні характеристики як відмінок, число, рід, час, спосіб, особа, тобто морфологічну інформацію, за допомогою якої встановлюються синтагматичні відношення між словами, необхідні для здійснення наступного етапу синтаксичного аналізу. У результаті роботи лематизатора в кожного слова у вхідній інформації виділяються основи (леми), які в подальшому підлягають обробці за допомогою латентно-семантичного аналізу.
У роботі модуля морфологічного аналізу застосовано удосконалений варіант метрики Левенштейна для розпізнавання та виправлення слів, написаних з помилками (вставка, заміна, пропуск, транспозиція). Перевагою методу також є й те, що він дозволяє встановлювати обмеження на кількість можливих у відповіді помилок, що сприяє адекватному оцінюванню знань того, хто навчається.
Результати роботи блоку морфологічного аналізу у вигляді набору лексико-граматичних характеристик словоформ надходять на вхід роботи синтаксичного аналізатора, метою якого є побудова синтаксичної структури речень тексту відповіді, що передбачає встановлення функціональної ролі кожної лексеми в реченні, встановлення й аналіз зв'язків між ними. Найбільш складною та проблематичною є процедура семантичного аналізу вхідної текстової інформації, основним завданням якої є екстракція семантики із природномовної відповіді студента і вираження її внутрішньою мовою системи. Семантична характеризація тексту неможлива без інтерпретації предметної сфери, що у свою чергу сприяє зменшенню багатозначності природної мови.
Експериментальні дослідження та застосування ІСОЗ проводились у вищих навчальних закладах ІІІ-ІV рівнів акредитації. Апробація ІСОЗ проводилася за різними напрямами (спеціальностями) та освітньо-кваліфікаційними рівнями. До оцінювання залучалося 347 студентів (слухачів, курсантів) з 16 навчальних груп. Було оцінено 663 варіантів природно мовних відповідей, поданих у довільній формі. З метою перевірки достовірності оцінювання ІСОЗ вибірково з кожного предмету викладачами проводилася контрольна перевірка відповідей студентів. При цьому середнє значення коефіцієнта кореляції Пірсона 0,811 свідчить про високий ступінь збігу оцінок, що виставлені інтелектуальною системою оцінювання знань та оцінкою контрольних робіт викладачами. Зведені відомості щодо апробації наведено у табл. 1.
Державним комітетом України з питань науки, інновацій та інформатизації складено акт приймання науково-технічної роботи “Розробка інтелектуальної автоматизованої системи контролю знань студентів вищих навчальних закладів”, що виконувалася за договором від 20.07.2009 № ІТ/553-2009, у якому запропоновано використовувати результати зазначеної роботи шляхом передачі програмного комплексу та технічної документації до нього провідним навчальним закладам України.
Таблиця 1 - Зведені відомості щодо апробації інтелектуальної системи оцінювання знань
Установа, навчальний заклад |
Напрям підготовки, спеціальність |
Предмет |
Обсяг контенту навчального матеріалу бази знань, тис. слів |
К-сть контрольних запитань |
К-сть студентів |
Кореляція оцінок ІСОЗ-викладач |
|
Інститут інтелектуальної власності Національного університету “Одеська юридична академія” |
8.18010012 “Управління інноваційною діяльністю” |
Маркетинг інтелектуальної власності |
81,912 |
68 |
26 |
0,846 |
|
Національна академія Державної прикордонної служби України імені Богдана Хмельницького |
8.140105 “Охорона та захист державного кордону” |
Зв'язок у ДПСУ |
79,357 |
54 |
24 |
0,785 |
|
Інформаційно-телекомунікаційні системи ДПСУ |
112,481 |
70 |
24 |
0,864 |
|||
8.140105 “Охорона та захист державного кордону” |
Основи інформатики і програмування |
241,782 |
82 |
98 |
0,879 |
||
7.090258 “Автомо-білі та автомобільне господарство” |
Обчислювальна техніка |
133,171 |
84 |
15 |
0,814 |
||
Комп'ютерна графіка |
55,468 |
69 |
15 |
0,799 |
|||
Хмельницький кооперативний торговельно-економічний інститут |
6.030507 “Маркетинг” |
Економіка підприємства |
177,683 |
76 |
24 |
0,802 |
|
6.030508 “Фінанси і кредит” |
Економічна інформатика |
106,354 |
80 |
62 |
0,726 |
||
6.030509“Облік і аудит” |
Економічна інформатика |
106,354 |
80 |
59 |
0,823 |
||
Разом |
Напрямів -3; спеціальностей - 4 |
Предметів - 9 |
1 094,562 |
663 |
347 |
0,811 |
Висновки
У дисертації наведене теоретичне узагальнення і нове вирішення наукової задачі, що виявляється в розробленні комплексної лінгвістичної системи в межах загальної автоматизованої інтелектуальної системи оцінювання знань студентів. Значення отриманих у дисертації результатів для прикладної лінгвістики полягає у створенні інструментальних засобів інтелектуальної автоматизованої обробки інформації, що подається природною мовою, на основі застосування лінгвістичних моделей та алгоритмів, які враховують ефекти нечіткості мовних даних, а також семантику та прагматику лексичних одиниць текстів предметної сфери.Значення отриманих у дисертації результатів для практики полягає в можливості автоматизованої оцінки знань студентів у реальному часі, що складаються із різних типів завдань, у тому числі таких, відповіді на які повинні бути подані природною мовою у довільній формі.
Загальні результати роботи дають підстави зробити такі висновки:
1. Проаналізовано результати наукових досліджень у галузі розробки автоматизованих систем оцінювання знань та застосування в них моделей і методів лінгвістичного аналізу природномовного тексту. Здійснено огляд та порівняльний аналіз різних систем оцінювання. Проведений аналіз функціональних можливостей різних засобів автоматизації оцінювального процесу свідчить про недостатні інтелектуальні властивості цих систем за рахунок обмеженого, нерелевантного цілям зазначених систем представлення в них саме лінгвістичних функцій. Зазначене спонукає до розроблення та комплексного поєднання в системах оцінювання знань різних аспектів та рівнів лінгвістичного аналізу, зосереджених та реалізованих в єдиній структурно-функціональній системі, а саме - лінгвістичній підсистемі інтегрованої інтелектуальної системи оцінювання знань.
2. Для розв'язання наукового завдання в дисертації розроблено методику комп'ютерного моделювання процедур лінгвістичного аналізу тексту в системі оцінювання знань. Запропонована у роботі методика дослідження дала змогу проаналізувати та виявити недосконалість сучасних автоматизованих систем тестування, зокрема у сфері обробки й оцінювання природномовних текстових відповідей, і розробити власну методику аналізу тексту в інтелектуальній системі оцінювання знань, яка ґрунтується на поєднанні лінгвоаналітичних методів, статистичних методів, методів теорії нечітких множин, математичного моделювання, технологій штучного інтелекту, а також сучасних засобів програмування. Розробка та застосування запропонованих методів і моделей в інтелектуальній системі оцінювання знань дало змогу частково позбавитися вад, притаманних сучасним системам тестування, і опрацьовувати довільні природномовні відповіді студентів на завдання відкритої форми.
3. На основі застосування розробленої методології побудовано концептуальну модель лінгвістичної підсистеми ІСОЗ та її функціональну структуру. Виходячи з визначених архітектурою ANSI/X3/SPARK властивостей концептуальної моделі, а саме: семіотичності, семантичності, однозначності, несуперечливості, інтегрованості, типізованості та алгоритмізованості, у дисертації розроблено функціональну структуру ІСОЗ, в якій лінгвістична підсистема займає центральне місце. На відміну від традиційних підходів до автоматизованого контролю знань, застосування нових та удосконалених методів, моделей та алгоритмів лінгвістичного аналізу в системі оцінювання надає можливість: виявлення латентних асоціативно-семантичних залежностей у множині документів; часткового зняття омонімії, полісемії та синонімії; виправлення слів, що написані студентом з помилками; урахування синтаксичних відношень, логіки побудови терм у контексті предметної сфери тощо.
4. Уперше розроблено алгоритм семантичного порівняння нечіткої текстової інформації (відповідей на запитання, що подані студентом природною мовою в довільній формі, із варіантами правильних відповідей), в якому формалізовано опис лінгвістичної структури навчального контенту та відповіді. Розроблений алгоритм передбачає автоматичну конвертацію відповіді студента природною мовою до внутрішньосистемного вигляду, екстракцію лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Застосування розробленого алгоритму дозволяє усувати помилки, що можуть бути у вихідному тексті (неправильні закінчення, нестандартні скорочення тощо), визначати належність вихідного тексту до певної предметної сфери, формувати загальну оцінку відповіді на питання за комплексним показником, у якому враховується наявність у відповіді слів, присутніх у зразку (у тому числі за умови нечіткості), відповідність структур зразка і відповіді (порядку слів).Розроблено підсистему лінгвістичного аналізу тексту на основі моделей штучного інтелекту (нейронна мережа) як складову функціональної структури ІСОЗ.
5. Удосконалено алгоритм методу латентно-семантичного аналізу в таких аспектах: на етапі формування частотної матриці індексованих слів застосовано алгоритм нечіткого семантичного порівняння текстової інформації, унаслідок чого індексовані слова (терми) замінюються лексичними одиницями із баз даних: “Словник”, “Абревіатура”, “Скорочення”, “Власні назви”, “Фрейми”, “Ключ” тощо; процедуру стемінгу замінено на лематизацію на основі результатів автоматичного морфологічного аналізу текстів задля забезпечення більш високої якості роботи алгоритму; запроваджено алгоритми нечіткого пошуку, а саме застосування удосконаленого варіанта метрики Левенштейна для виправлення некоректно поданих слів.
6. З'ясовано, що найефективнішими методами обробки природномовних текстових відповідей з метою екстракції та репрезентації семантики є системи, що ґрунтуються на поєднанні лінгвістичних технологій аналізу тексту (графематичного, морфологічного, синтаксичного, семантичного) та різних варіантів методу латентно-семантичного аналізу, що дозволяє виявляти приховані асоціативні залежності всередині природномовних текстів. Таке поєднання дає можливість урахувати та частково елімінувати недоліки, притаманні обом методам, та удосконалити процес обробки природномовної відповіді шляхом комбінування переваг розглянутих лінгвістичних і статистичних методів. У розробленій ІСОЗ реалізовано варіант інтеграції технологій експліцитного семантичного аналізу, латентно-семантичного аналізу, методів теорії нечіткої логіки, штучного інтелекту та ін.
7. Розроблена система пройшла практичну апробацію шляхом застосування у навчальному процесі Інституту інтелектуальної власності Національного університету “Одеська юридична академія”, Національної академії Державної прикордонної служби України імені Б. Хмельницького, Хмельницького кооперативного торговельно-економічного інституту, що підтверджено відповідними актами реалізації ІСОЗ. За результатами випробовувань дослідного зразка Інтелектуальної системи оцінювання знань Державним комітетом України з питань науки, інновацій та інформатизації рекомендовано здійснити використання одержаних результатів шляхом передачі програмного комплексу та технічної документації до нього провідним навчальним закладам МОН України.
Список опублікованих праць за темою дисертації
1. Комарницька О. І. Інтелектуальна автоматизована система контролю знань: лінгвістична підсистема / І. С. Катеринчук, В. М. Кулик, О. І. Комарницька // Інформаційні технології в освіті : збірник наукових праць. - Випуск 7. - Херсон : Вид-во ХДУ, 2010. - С. 33-39.
2. Комарницька О. І. Новітні інформаційні технології оцінювання знань у вищих навчальних закладах / І. С. Катеринчук, В. М. Кулик, О. І. Комарницька // Збірник наукових праць № 51. Частина IІ. - Хмельницький : Вид-во НАДПСУ, 2010 - С. 56-59.
3. Комарницька О. І. Методи діагностики сформованості інтелектуальних вмінь курсантів-прикордонників на початковому етапі навчання / Т. В. Ваколюк, О. І. Комарницька // Збірник наукових праць № 65. - Хмельницький : Вид-во НАДПСУ, 2012. - С. 9-12.
4. Комарницька О. І. Алгоритм нечіткого семантичного порівняння текстової інформації / Т. В. Ваколюк, О. І. Комарницька // Збірник наукових праць Військового інституту Київського національного університету ім. Т. Шевченка. - К., 2013.- № 39. - С. 163-168.
5. Комарницкая О. И. Совершенствование алгоритма латентно-семантического анализа нечеткой текстовой информации / О. И. Комарницкая //Современный научный вестник. № 29 (225). Серия : Филологические науки. - Белгород : Руснаучкнига. - 2014. - С. 58-62.
6. Komarnytska O. I. Application of artificial intelligence models for content comparison of text information /О. І. Комарницька // Філологічні трактати.:вісник Сумського державного університету. Серія :Філологічні науки. ?Суми. - Т. 6. - № 3. - 2014. - С. 100-106.
7. Комарницька О. І. Метод семантичного порівняння нечіткої текстової інформації / О. І. Комарницька, І. І. Комарницька // Збірник наукових праць Військового інституту Київського національного університету ім. Т. Шевченка. - К. : Видавництво ВІ КНУ. - 2014.- № 47. - С. 163-168.
Подобные документы
Проблеми лінгвістичного аналізу художніх творів. Мета лінгвостилістичного тлумачення - вивчення засобів мови у тексті. Методи проведення лінгвістичного аналізу на прикладі оповідання класика американської літератури XX ст. Дж. Стейнбека "The Pearl".
курсовая работа [74,4 K], добавлен 28.10.2014Принципи вибору перекладацьких стратегій при перекладі текстів типу інструкцій до технічного обладнання. Сучасний стан лінгвістичного та перекладацького аналізу в галузі дослідження перекладу тексту-інструкції як особливого виду міжнародного документу.
курсовая работа [66,0 K], добавлен 29.11.2009Теоретичні засади дослідження компресії як лінгвістичного явища при перекладі публіцистичного тексту. Механізм стиснення тексту на синтаксичному рівні. Єдність компресії та декомпресії під час перекладу газетних текстів з англійської мови українською.
курсовая работа [63,8 K], добавлен 21.06.2013Огляд проблеми багатозначності англійської мови. Морфологічний та синтаксичний аналіз тексту. Правила контекстного аналізу, які дозволяють зняти морфологічну омонімію. Коротка характеристика головних особливостей алгоритму прихованої Марківської моделі.
курсовая работа [119,3 K], добавлен 06.06.2013Основні характеристики казки та значення цього виду літературного твору. "Морфологія казки" Проппа. Надсинтаксичні рівні одиниць тексту: супрасинтаксичний, комунікативний. Закони компресії тексту. Переклад як складова частина утворення вторинних текстів.
дипломная работа [104,3 K], добавлен 06.12.2015Проблеми фразеології у світлі наукових парадигм. Аспекти лінгвістичного аналізу фразеологічних одиниць у мовознавстві. Класифікація фразеологічних одиниць. Культурологічний аспект аналізу фразем, які не мають лексичних відповідників, у системі слів.
дипломная работа [105,4 K], добавлен 19.08.2011Побудова алгоритмів порівняльно-перекладацького та доперекладацького аналізу спеціальних текстів. Особливості синергетично-інформаційної методики перекладацького аналізу з огляду на два його типи: порівняльно-перекладацький та доперекладацький аналіз.
статья [77,5 K], добавлен 11.10.2017Основні аспекти лінгвістичного тексту, його структура, категорії та складові. Ступінь уніфікації текстів службових документів, що залежить від міри вияву в них постійної та змінної інформації. Оформлення табличних форм, опрацювання повідомлення.
статья [20,8 K], добавлен 24.11.2017Аналіз фонових знань перекладача, необхідних для роботи із текстами у галузі неврології. Переклад тексту з англійської мови на українську (історія хвороби). Розгляд головних перекладацьких прийомів, застосованих для перекладу термінологічних сполук.
курсовая работа [95,1 K], добавлен 09.05.2012Аспекти лінгвістичного аналізу ФО в сучасному мовознавстві. Особливості перекладу ФО англійської мови з компонентом "вода" українською мовою. Вплив міжкультурних, національно-культурних факторів на формування фразеологічних зворотів з компонентом "вода".
дипломная работа [151,8 K], добавлен 02.06.2011