Предмет компьютерной лингвистики (на современном этапе)
Компьютерная лингвистика как научное направление. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Системы автоматической обработки текстовой информации. Общие принципы компьютерного моделирования и понятия инструментария.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 28.09.2015 |
Размер файла | 28,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
РЕФЕРАТ
ПРЕДМЕТ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ (НА СОВРЕМЕННОМ ЭТАПЕ)
Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики» (занимается исследованием процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков. КЛ исследует язык при помощи статистических методов; её цель -- сформулировать законы, по которым функционирует язык и построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков).
Компьютерная лингвистика - это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке, а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах.
Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту - т.е. по использованию компьютерных средств обработки языковых данных.
Данное направление прикладной лингвистики, ориентировано на использование компьютерных инструментов - программ, компьютерных технологий организации и обработки данных - для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д.,
Основные направления компьютерной лингвистики
Компьютерная лексикография
Гипертекстовые технологии представления текста
Информационно-поисковые системы
Машинный перевод
Компьютерное моделирование общения или системы обработки естественного языка (NLP - Natural Language Processing):
вопросно-ответные системы
диалоговые системы решения задач
обработка связных текстов
Моделирование структуры сюжета
В последние годы выделились следующие направления:
·-- Автоматическое распознавание символов (англ. OCR).
· Автоматическое распознавание речи (англ. ASR).
· Автоматическое извлечение данных (англ. Data Mining) (с их интеллектуальным анализом, т.е., обнаружение знаний в базах данных).
· Автоматическое реферирование и аннотирование текстов.
· Построение систем управления знаниями.
Центральными научными проблемами компьютерной лингвистики являются:
- проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла)
- проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке).
Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.
Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части - средства манипулирования единицами языка и речи, текстами и грамматическими таблицами.
В качестве единиц языка и речи могут выступать единицы различного уровня: морфемы, слова, словосочетания, фразы, сверхфразовые единства. Эти единицы в совокупности представляют собой иерархическую систему, в которой смысловое содержание единиц более высокого уровня не сводимо или не полностью сводимо к смысловому содержанию составляющих их единиц более низкого уровня (смысл единиц более высокого уровня не всегда может быть "вычислен" на основе информации о смысле единиц более низкого уровня и информации о связях между этими единицами). В качестве средств манипулирования единицами языка и речи и текстами могут выступать процедуры морфологического, семантико-синтаксического и концептуального анализа и синтеза.
Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).
Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран (Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.
Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых процедурных средствах? Большинство ученых сходятся во мнении, что второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок. компьютерный лингвистика информация
Необходимость мобилизации усилий на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Несмотря на бесспорные успехи науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств. Так в своей статье японский профессор Макото Нагао традиционному преимущественно алгоритмическому подходу при решении проблем машинного перевода ("rule based approach") противопоставляет метод аналогии ("example based approach").
Таким образом, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.
Перед компьютерной лингвистикой стоят прежде всего задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:
1. Автоматизация составления и лингвистической обработки машинных словарей;
2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;
3. Автоматическое индексирование документов и информационных запросов;
4. Автоматическая классификация и реферирование документов;
5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;
6. Машинный перевод текстов с одних естественных языков на другие;
7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;
8. Извлечение фактографической информации из неформализованных текстов.
Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки.
Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена».
Категория сцены преимущественно используется как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.
Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире - Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».
Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты.
Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека - так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) - с другой.
В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.
Размещено на Allbest.ru
Подобные документы
Место и роль компьютерной лингвистики в лингвистических исследованиях. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики.
курсовая работа [28,5 K], добавлен 22.11.2009Компьютерная лингвистика - особая прикладная дисциплина. Когнитивный инструментарий компьютерной лингвистики, омонимичность его основных понятий. Использование компьютерных средств обработки языковых данных. Гипертекстовые технологии представления текста.
реферат [37,2 K], добавлен 08.08.2010Использование компьютера как канала передачи информации. Основные виды общения в компьютерной сети. Характеристики компьютерного дискурса, его конститутивные признаки. Участники институционального дискурса. Способы реализации компьютерного дискурса.
реферат [35,1 K], добавлен 15.08.2010Основные допечатные процессы подготовки издания. Технологическая схема компьютерной подготовки текстовой информации. Выбор варианта оформления, формата, гарнитуры и кегля. Основные правила компьютерного набора. Верстка в программе Adobe InDesig.
курсовая работа [250,5 K], добавлен 22.01.2015Основные понятия, применяемые при описании интерфейсов, их классификация. Обзор применяемых в компьютерной технике интерфейсов по их характеристикам и области применения. Описание и основные характеристики интерфейсов IDE, IEEE-1394, HDMI 1.4 и SATA.
курсовая работа [183,3 K], добавлен 25.04.2012Режимы компьютерной обработки данных. Централизованный, децентрализованный, распределенный и интегрированный способы обработки данных. Средства обработки информации. Типы ведения диалога, пользовательский интерфейс. Табличный процессор MS Excel.
курсовая работа [256,9 K], добавлен 25.04.2013Базовые основы программы Prolog - языка и системы логического программирования. Работа с текстами и предложениями. Электронный казахско-русско-английский словарь. Дистанционный комплекс обучения государственному языку специалистов технического профиля.
реферат [45,6 K], добавлен 15.09.2014Первые электронно-вычислительные машины. Начало компьютерной индустрии США. Государственная поддержка зарождавшейся индустрии. Послевоенная ситуация на американском рынке устройств обработки информации. Оборудование IBM.
реферат [15,1 K], добавлен 05.06.2004Преступления, совершенные с использованием компьютерной информации. Виды компьютерной преступности, группы организационно-технических мер по ее предупреждению. Причины и условия, способствующие совершению преступлений. Правовая ответственность за них.
реферат [29,0 K], добавлен 01.04.2011Сферы применения машинной графики. Виды компьютерной графики. Цветовое разрешение и цветовые модели. Программное обеспечение для создания, просмотра и обработки графической информации. Графические возможности текстовых процессоров, графические редакторы.
контрольная работа [21,9 K], добавлен 07.06.2010