Напрямки комп'ютерної лінгвістики

Роль автоматизованих інформаційних технологій у суспільстві. Проблеми автоматичної обробки текстової інформації. Комп'ютерна лінгвістика як напрям штучного інтелекту. Використання математичних моделей для природних мов. Створення електронних словників.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык украинский
Дата добавления 21.04.2014
Размер файла 22,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Державний вищий навчальний заклад

"Запорізький національний університет"

Міністерства освіти і науки, молоді та спорту України

Кафедра інформаційних технологій

Індивідуальне завдання з дисципліни

"Основи інформатики та прикладної лінгвістики"

"Напрямки комп'ютерної лінгвістики"

Виконала Вавілова А.А.

Перевірив Зінченко А.І.

Запоріжжя, 2012

Зміст

Вступ

1. Комп'ютерна лінгвістика

2. Моделі комунікації

Висновок

Література

Вступ

У житті сучасного суспільства важливу роль відіграють автоматизовані інформаційні технології. З плином часу їх значення безперервно зростає. Але розвиток інформаційних технологій відбувається дуже нерівномірно: якщо сучасний рівень обчислювальної техніки та засобів зв'язку вражає уяву, то в області смислової обробки інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від досягнень у вивченні процесів людського мислення, процесів мовного спілкування між людьми і від уміння моделювати ці процеси на ЕОМ.

Коли мова йде про створення перспективних інформаційних технологій, то проблеми автоматичної обробки текстової інформації, представленої на природних мовах, виступають на передній план. Це визначається тим, що мислення людини тісно пов'язане з його мовою. Більш того, природна мова є інструментом мислення. Він є також універсальним засобом спілкування між людьми - засобом сприйняття, накопичення, зберігання, обробки і передачі інформації. Проблемами використання природної мови в системах автоматичної обробки інформації займається наука комп'ютерна лінгвістика. Ця наука виникла порівняно недавно - на рубежі п'ятдесятих і шістдесятих років минулого століття. За минулі півстоліття в області комп'ютерної лінгвістики були отримані значні наукові та практичні результати: було створено системи машинного перекладу текстів з одних природних мов на інші, системи автоматизованого пошуку інформації в текстах, системи автоматичного аналізу та синтезу усного мовлення та багато інших. Дана робота присвячена побудові оптимального комп'ютерного інтерфейсу засобами комп'ютерної лінгвістики при проведенні лінгвістичних досліджень.

1. Комп'ютерна лінгвістика

Комп'ютерна лінгвістика, англ. computational linguistics - напрям штучного інтелекту, яке ставить за мету використання математичних моделей для опису природних мов.

Комп'ютерна лінгвістика також перетинається з дослідженням "штучного інтелекту", але тому це завдання поки що надто складна для сучасної науки, вчені перевели акцент з штучного інтелекту - на комп'ютерну лінгвістику, більш прості питання - наприклад, автоматичний переклад текстів, нехай навіть і неточний.

Проте для вирішення деяких прикладних питань, використовувати такі розробки можливо, але насамперед у зв'язку з філософією.

Наприклад ще Аристотель (хоча його часто критикують, і загалом справедливо, адже він часто не погоджувався з учителем його - Платоном) говорив про зв'язок мови і логіки, називаючи філософські поняття для обох цих областей. Зараз цим займається аналітична філософія.

Напрями комп'ютерної лінгвістики

Обробка природної мови (синтаксичний, морфологічний, семантичний аналізи тексту; англ. parsing). Обробляють текст різноманітними способами: насамперед його вводять в комп'ютер через пристрої введення (сканування, розпізнавання, набір на клавіатурі або іншими способами) або отримують записаний раніше з дисків або через мережу, звичайно інтернет.

Наприклад, створення автоматичних пошукових систем в Інтернет широко використовує лінгвістичний аналіз.

Це також частина комп'ютерної лінгвістики. Пошукові машини індексують текст і створюють щось подібне до словників. Наприклад, Гугл використовує ці тексти для автоматичного перекладу. Сюди включають також:

1. Корпусна лінгвістика, створення і використання електронних корпусів текстів

2. Створення електронних словників, тезаурусів, онтологій. Наприклад, Lingvo. Словники використовують, наприклад, для автоматичного перекладу, перевірки орфографії.

3. Автоматичний переклад текстів. Серед російських перекладачів популярним є Промт. Серед безкоштовних відомий перекладач Google Translate

4. Автоматичне вилучення фактів з тексту (Витяг інформації) (англ. fact extraction, text mining)

5. Автореферірованіє (автоматичне реферування текстів). Ця функція включена наприклад в Майкрософт Ворд.

6. Побудова систем управління знаннями. Див Експертні системи

· Оптичне розпізнавання символів (англ. OCR). Наприклад, програма FineReader

· Автоматичне розпізнавання мови (англ. ASR). Є платне і безкоштовне ПЗ

· Автоматичний синтез мови

Аналіз текстів на природній мові.

Лінгвісти давно вивчають, як влаштований текст, і перш за все пропозиція, що грає роль цеглинки, з сукупності яких складається текст. Але лише з появою комп'ютерів ці дослідження придбали новий напрям.

Група американських лінгвістів висунула зухвалу ідею, що отримала назву проект Джорджтауна, - автоматизувати процес перекладу текстів з однієї мови на іншій, використовуючи для цього ЕОМ. Ідея зацікавила лінгвістів багатьох країн і активізувала роботи в області аналізу текстів.

В ході цих робіт треба було відповісти, перш за все, на питання: "Чи існують строгі формальні правила, по яких будується структура пропозиції і структура тексту?" Якщо про структуру пропозиції лінгвісти накопили багато матеріалу, то структура тексту ними не вивчалася.

В результаті проведених досліджень стало ясно, що за кожним текстом (у тому числі і за окремою пропозицією, міні-текстом, що є свого роду) ховається не одна, а декілька формальних структур, які можна розділити на три рівні : комп'ютерний лінгвістика інформаційний електронний

- синтаксичний

- семантичний

- прагматичний.

Детальніше ці і інші рівні аналізу текстів природної мови будуть розглянуті нижчим.

Як вказувалося вище, напрям аналізу текстів на природній мові з'явився у зв'язку з бажанням вирішити проблему машинного перекладу. Машинний переклад - це автоматичний переклад текстів з однієї мови на іншій (наприклад, послівний переклад науково-технічної інформації, патентів, документів, інструкцій, програм ЕОМ з алгоритмічного на машинну мову), а також науковий напрям, що охоплює круг проблем, які виникають при автоматизації перекладу. Система машинного перекладу зазвичай містить лінгвістичні описи вхідної і вихідної мов, тобто мов вихідного тексту і тексту, отриманого в результаті перекладу, і алгоритм, на основі якого виконується даний переклад.

З часом (у 50-х рр. 20-го ст.) проблема машинного перекладу переросла в окрему науково-технічну проблему і фактично знайшла риси окремого наукового напряму з однойменною назвою. Цей напрям виник на стику таких наук, як математика, кібернетика, лінгвістика і програмування. Проте, основу машинного перекладу як наукового напряму складають результати, отримані в області комп'ютерної лінгвістики.

Синтез текстів на природній мові.

Завдання синтезу може розглядатися як зворотна по відношенню до аналізу. Якщо задані деяка тема і мета майбутнього тексту, то можна вважати заданою прагматичну структуру тексту. Її треба декомпозировать в прагматичні структури окремих пропозицій і для кожної пропозиції пройти всі етапи аналізу у зворотному напрямі. На сьогоднішній день тут ще маса невирішених проблем. Невідомо, як генерувати прагматичну структуру тексту з тих цілей, які стимулюють створення тексту. Незрозуміло, як цю структуру розбити на прагматичні структури пропозицій і як від цих приватних прагматичних структур перейти до глибинних семантичних структур. Відоміші методи подальшого руху по шляху генерації тексту.

Одним з перших прикладів природно-мовних систем, здатних синтезувати тексти, є автоматична система створення текстів чарівних казок, створена в Московському енергетичному інституті в 70-х рр. і названа "TALE" В пам'яті даної системи зберігалися дані для заповнення так званих октантів, а однакові змінні показують, що на ці місця усюди треба поставити одні і ті ж заповнювачі. Так виникає текст: "Жив - був" Цар. І не було у Царя бажаного спадкоємця. Став Цар просити Бога. Бог обіцяв. З'явився спадкоємець. Виріс спадкоємець...".

Приклад системи автоматичного синтезу можна привести систему, що уміє складати вірші. Прикладів таких систем вже немало, хоча з вигадуванням віршів справа йде дещо складніше.

Програма в змозі врахувати характер рими, кількість складів у відповідних рядках вірша, метричну форму вірша і провести граматичний аналіз. Проте вміст майбутнього вірша в значній мірі виявляється довільним і залежить від вмісту вихідного словника. Ось приклад машинного вірша:

Добрий розвівається шелест

Плаче порожнеча

Слухають гойдалки

І співає біда

Стань покірне горі

Млосно лише летить

І прозоре море

Таємно шелестить

І біжить земна

Непомітно тінь

Повільно лісова

Славить вологий день.

В даний час автоматичний синтез текстів необхідний також при створенні:

- інтелектуальних систем, здатних пояснювати користувачеві хід рішення тієї або іншої задачі;

- систем підтримки ухвалення рішень, здатних допомагати користувачеві прийняти те або інше рішення на основі вироблених альтернатив;

- інформаційно-довідкових систем різного призначення, здатних підказати користувачеві найбільш оптимальну дорогу пошуку і замовлення тій або іншій інформації (наприклад, в системах замовлення квитків);

- різних діалогових систем.

Розуміння текстів.

Проблема розуміння текстів на природній мові включає не лише лінгвістичні аспекти. З нею тісно пов'язані завдання, що традиційно вирішуються в рамках психології, філософії і семіотики. Розповідаючи про проблему аналізу текстів, ми кілька разів посилалися на те, що сам аналіз служить інструментом для розуміння вмісту тексту. Мабуть, найважливіше значення проблема розуміння має в так званих діалогових системах.

На початку 70-х рр. фахівці в області штучного інтелекту дивували далеких від науки людей системами спілкування на природній мові, що демонструють на перший погляд майже безмежні можливості створеного ними інтелектуального інтерфейсу спілкування. Будь-яка людина могла спілкуватися з системою на довільну тему, використовуючи все багатство доступної йому мови. При цьому система підтримувала розмову, приголомшуючи співбесідника своїми здібностями. Ось один з прикладів такої розмови, в якій як інтелектуальний інтерфейс використовувалася програма, що реалізована на ЕОМ, отримала назву "Елізу".

Співбесідник: Сьогодні прекрасна погода, чи не так?

"Еліза": Ви любите прекрасну погоду?

С.: Звичайно. Хто ж її не любить?

"Е.": Так. Прекрасна погода - це добре.

С.: Цікаво, які види цього року на урожай?

"Е.": Вас це цікавить?

С.: Ну, більш-менш. А вас?

"Е.": Більш-менш.

С.: Але все-таки, хотілося б, аби урожай був хорошим.

"Е.": Я сповна згодна з вами.

Зовні діалог нагадує світську бесіду двох не дуже знайомих людей. Це, швидше, гра в спілкування, чим спілкування по суті. Але і така гра займає в житті людей чимале місце. "Еліза" в подібних розмовах виявляється сповна "на рівні". Багато хто навіть вважає, що їх просто розігрують і з ними спілкується не програма, реалізована на комп'ютері, а живий співбесідник. Подібні приклади діалогових систем зараз можна знайти в мережі Інтернет, де ці системи отримали назву мовних чатів.

Рівень спілкування, який демонструють "Еліза" і інші подібні нею програми, по суті, найнижчий зі всіх можливих. Це рівень так званого фактичного діалогу. У такому діалозі партнери (або один з них) практично не слухають один одного. Це лише видимість бесіди, а для підтримки її використовуються стандартні "домашні заготовки".

Пожвавлення тексту.

Це один з наймолодших напрямів в комп'ютерній лінгвістиці. Своєю появою воно зобов'язане персональним комп'ютерам, які вперше дали можливість організувати спілкування з користувачем не лише шляхом обміну текстами, але і за допомогою зорових образів на екрані дисплея.

Однією з особливостей мислення людини (чи не основний для можливості самого мислення) є його разномодальність. Психологи користуються цим терміном, аби підкреслити, що наші уявлення про навколишній світ і про нас самих можуть мати різну природу (різну модальність). Можна "мислити словами", але можна уявляти собі якісь зорові картинки, як часто буває в снах. Є люди, для яких багато спогадів складаються із запахів або смакових вражень. Словом, всі наші органи чуття дають свою модальність в мисленні. Але дві модальність: символьна (текстова) і зорова - є для людини основними.

Легко перевірити, що між цими модальностями є вельми тісний зв'язок. Звичайна назва чогось або текстовий опис деякої ситуації тут же викликає зорові уявлення про ці об'єкти і ситуації. І навпаки, варто нам побачити щось, як ми тут же готові описати побачене за допомогою нашої рідної мови. Так текст і супутня йому зорова картина виявляються об'єднаними в нашій свідомості і інтегрованими в деяку єдність. Текст як би "живе" у вигляді деякої образної вистави. І вивчення того, як відбувається ця інтеграція і як по одній складовій вистави з'являється друга, - одне із захоплюючих завдань, що стоять перед фахівцями в області комп'ютерної лінгвістики і їх колегами - творцями інтелектуальних систем. Вже знайдені деякі важливі закони інтеграції текстів і зорових образів. Створені перші експериментальні моделі цього процесу і перші інтелектуальні системи, здатні описувати у вигляді тексту картинку (наприклад, пейзаж), що пред'являється ним, а також відтворювати одну з можливих картин, відповідних введеному в систему тексту.

2. Моделі комунікації

Поява штучних систем, здатних сприймати і розуміти людську мову (поки у вельми обмеженому об'ємі) і тексти на природній мові, створила передумови для безпосереднього спілкування людини і комп'ютера. Це, у свою чергу, підвищило інтерес лінгвістів до процесів, супутньої організації і ведення діалогу. Прикладами можуть служити:

- спосіб побудови сценарію діалогу на основі тих цілей, які активна сторона в діалозі ставить перед собою;

- підтримка вибраного сценарію з врахуванням інтересів партнера і його можливої протидії тому сценарію, який використовується;

- знаходження засобів маскування дійсних намірів того, що говорить;

- організація пасивної підтримки комунікаційного процесу і так далі

Висновок

У системах автоматичної обробки текстової інформації важливу роль відіграє комп'ютерна лінгвістика. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння змісту текстів (переходу від тексту до формалізованого поданням його сенсу) і проблема синтезу мовлення (переходу від формалізованого подання сенсу до текстів на природній мові).

Комп'ютерна лінгвістика має свої напрямки. Ці п'ять напрямів, які активно розвиваються в комп'ютерній лінгвістиці, природно, не вичерпують всього вмісту цієї науки. Але і сказаного цілком достатньо, аби оцінити її важливість і значущість не лише для самої лінгвістики, але і для створення технічних систем, за здібностями до діалогу, не поступливих людині.

Література

1. Апресян Ю.Д. Вибрані праці, тому I. Лексична семантика: 2-е вид., Испр. І доп. - М.: Школа "Мови російської культури", Видавнича фірма "Східна література" РАН, 1995

2. Апресян Ю.Д. Вибрані праці, том II. Інтегральне опис мови і системна лексикографія. - М.: Школа "Мови російської культури", 2005.

3. Попов Е.В. Спілкування з ЕОМ на природній мові. М. Наука. 2000.

Размещено на Allbest.ru


Подобные документы

  • Роль комп'ютерної техніки в різних сферах сучасного суспільства, необхідність його комп’ютеризації. Поняття про програмне забезпечення, складові, коротка характеристика його основних типів. Опис, призначення і можливості електронних таблиць MS Excel.

    реферат [2,3 M], добавлен 10.10.2009

  • Широке використання інформаційних технологій у всіх сферах життя суспільства. Інформація як об’єкт захисту. Основні види загроз безпеки інформації в комп’ютерних мережах. Несанкційований доступ до інформації і його мета. Порушники безпеки інформації.

    реферат [253,2 K], добавлен 19.12.2010

  • Поняття, принципи та проблеми етики у сфері інформаційних технологій. Аналіз її морально-етичні норм та кодексів. Дослідження моральних дилем. Етичні теорії та визначення приватності в кіберпросторі. Загальна характеристика комп'ютерної злочинності.

    курсовая работа [29,5 K], добавлен 15.07.2014

  • Поняття штучного інтелекту, його порівняння з природним. Коротка характеристика особливостей використання штучного інтелекту в медицині, військовій справі та комп'ютерних іграх. Проблема взаємодії носіїв універсального штучного інтелекту та суспільства.

    контрольная работа [29,6 K], добавлен 07.01.2014

  • Використання Інтернет-ресурсів та форми роботи з комп’ютерними навчальними програмами. Підвищення мотивації вивчення англійської мови шляхом використання нових інформаційних технологій у школі. Сучасні підходи до використання інформаційних технологій.

    реферат [29,0 K], добавлен 09.12.2010

  • Поняття комп'ютерної мережі як системи зв'язку між двома чи більше комп'ютерами через кабельне чи повітряне середовище. Середовище передачі у комп'ютерних мережах. Передумови інтенсивного розвитку мережних технологій. Мережні сервіси, класифікація мереж.

    реферат [20,8 K], добавлен 13.11.2013

  • Нові інформаційні технології (НІТ) як сукупність нових засобів і методів обробки, зберігання і передачі інформації. Технологічна основа та основні принципи створення НІТ. Класифікатори техніко-економічної інформації в фінансовому контролі й аудиті.

    контрольная работа [21,5 K], добавлен 27.09.2010

  • Домеханічний період розвитку обчислювальної техніки. Перехід до механічного періоду. Останній період - електронно-обчислювальний. Характеристика поколінь електронно-обчислювальних машин. Комп'ютер - основний технічний засіб інформаційних технологій.

    реферат [26,8 K], добавлен 25.05.2015

  • Сканер - це пристрій введення текстової або графічної інформації в комп'ютер шляхом перетворення її в цифровий вигляд для наступного використання, обробки, збереження або виведення. Будова та принцип його дії. Історія створення та розвитку сканерів.

    реферат [774,0 K], добавлен 14.04.2010

  • Вибір архітектури і топології мережі, її оптимальної конфігурації. Налагодження операційної системи сервера. Технічне та програмне обслуговування комп’ютерної мережі. Розрахунок необхідної довжини кабелю та кількості й типів мережного обладнання.

    дипломная работа [6,2 M], добавлен 15.06.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.