Метод построения онтологии предметной области на основе семантического анализа запросов и технологии TextMining

Рассматривается проблема поиска информации в распределенных базах данных, например в Internet. Пример использования модели "смысл-текст" в сочетании с кластеризацией текстов на основе технологии TextMining для построения онтологии предметной области.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 20,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Метод построения онтологии предметной области на основе семантического анализа запросов и технологии TextMining

Г.П. Виноградов

А.А. Мальков (wgp272ng@mail.ru)

Тверской государственный технический университет, Тверь

Ключевые слова и выражения: распределенные базы данных, Internet, поиск информации, семантический кластер, онтология, модель “смысл-текст”.

Рассматривается проблема поиска информации в распределенных базах данных, например в Internet. Предлагаемый подход к ее решению, в отличие от известных, состоит в использовании модели “смысл-текст” в сочетании с кластеризацией текстов на основе технологии TextMining для построения онтологии предметной области, которая может быть положена в основу построения системы извлечения знаний из распределенных хранилищ данных. Такой подход позволяет сочетать семантический анализ запросов на естественном языке с построением онтологической модели предметной области поиска.

Введение. Интернет содержит огромное количество информации в виде текстов на естественном языке, размещенных на информационных ресурсах различной географической и национальной принадлежности. Пользователю приходится тратить огромное количество времени и усилий на поиск необходимой информации по запросу на естественном языке (классический Интернет - WWW), поскольку основными критериями для поиска являются такие факторы, как число посещений определённого ресурса, количество ссылающихся на него ресурсов и поиск по совпадениям «ключевых» слов без учета семантики запроса. Выход состоит в создании новых средств извлечения знаний из распределенных хранилищ данных, использующих результаты, полученные области искусственного интеллекта, компьютерной лингвистики и Интернет-технологий и средств визуализации.

Одной из главных проблем связанных с разбором текстов на естественных языках, является их неформальность. Среди наиболее известных работ, посвящённых формальному описанию языков, можно выделить теорию формальных грамматик Н. Хомского и модель «смысл текст» И.А. Мельчука. Идеи Хомского лежат в основе известных алгоритмов анализа текстов компьютерных программ. Модель И.А. Мельчука изначально предназначалась для изучения проблемы формализации естественных языков, но она не обладает достаточной языковой независимостью (ориентирована на русскоязычные тексты).

Одним из вариантов решения этой проблемы может быть использование технологии TextMining для «построения» семантической структуру запроса.

Визуальное представление семантики данных в соответствие с теорией доменов (с помощью онтологий) позволит обеспечить качественно новый уровень сервисов в сети Интернет.

Этот подход дает возможность использования человеческих знаний и дополнит их машинной обработкой. Различные автоматизированные сервисы помогут пользователям в достижении их целей посредством предоставления доступа и обеспечением информации в понятной машине формах.

Онтологии - это способ работы с неоднородным представлением информации сетевых ресурсов. Модель предметной области, выраженная в онтологии, может быть принята в качестве объединяющей структуры для предоставления информации. Могут быть созданы семантические хранилища информации, охватывающие множество разнородных источников.

1. Модель «смысл текст» И.А. Мельчука

Согласно теории «смысл текст» «естественный язык есть система, устанавливающая соответствия между любым заданным смыслом и всеми выражающими его текстами; соответственно, лингвистическое описание некоторого языка должно представлять собой множество правил, ставящих в соответствие всякому смыслу все тексты данного языка, несущие этот смысл»[Мельчук, 1974]. В основе модели лежит так называемый «толково-комбинаторный словарь современного русского языка». Наиболее важными особенностями словаря являются активность и формализованность. Активность - возможность использования словаря для синтеза текста. Формализация - способ математического описания слова. Сложные понятия определяются через более простые с помощью строгого формального языка, похожего на язык формулировки теорем. На базовом уровне перечисляются «элементарные смыслы» (аксиомы), не подлежащие дальнейшей трактовке. Такое устройство толково-комбинаторного словаря делает его пригодным для использования в машинных поисковых системах. В каждой словарной статье такого словаря описывается не отдельное слово, а так называема пропозиционная форма, состоящая из лексемы и переменных, составляющих её контекст. Так же в модель Мельчука входит обширная иерархия моделей, описывающая естественный язык на разных уровнях (фонетика, морфология и т.д.).

2. Извлечение знаний из текстов

Поисковые системы могут стать более эффективными за счет глубинного анализа текстов на основе, например, технологии TextMining [Feldman, 1996]. В настоящее время выделяют четыре основных вида приложений технологии.

· Классификация текстов благодаря выявлению статистических корреляций для формулирования правила размещения документов в предопределенные категории.

· Кластеризация, базирующаяся на выявлении латентных признаков документов, использующая лингвистические и математические методы без использования предопределенных категорий.

· Построение семантической сети или анализ связей, который определяет появление дескрипторов (ключевых фраз) в документе для обеспечения поиска и навигации.

· Извлечение фактов из текстов.

Очевидно, что TextMining можно рассматривать как промежуточный этап при семантическом анализе данных. Например, извлечение фактов их текста имеет смысл, когда предвидится дальнейшее установление определенных отношений между ними.

Технология TextMining включает в себя два этапа:

- подготовку данных;

- решение задач TextMining на подготовленных данных.

На этапе подготовки данных использование модели И.А. Мельчука позволяет выделить семантические единицы из запроса пользователя, т.е. запрос представляется как вектор «терминов». На их основе при помощи алгоритмов TextMining строятся кластеры структурных единиц запроса. Эти кластеры будут определять рабочие словари для поиска документов.

При поиске информации по запросу каждый документ также может быть представлен как вектор, состоящий из набора семантических единиц запроса пользователя, каждой из которых приписывается вес в соответствие с семантикой запроса, т.е. определяется главенствующий фактор в запросе и второстепенные. Это означает, что может быть произведена кластеризация документов, например, при помощи алгоритма самоорганизации [Виноградов и др., 2008] и определена степень принадлежности каждого документа семантическим кластерам.

Простейшей информацией, которую может выдать семантический анализатор, является кластер и начальная форма слова («центр» кластера). Данная информация может быть использована двумя способами.

1. Каждое слово можно заменить в запросе на его первоначальную форму.

2. Каждое слово можно заменить в запросе «идентификаторами» кластера.

В первом случае поиск будет по слову независимо от формы (что очень важно в языках, где большую роль играют падежи). Во втором случае при замене слова на идентификаторы кластера также будут найдены и синонимы слова.

Для сужения подобной рубрикации как раз и предлагается присвоить словам определённый вес. Использование весов по убыванию.

1. Имена собственные имеют самый большой вес.

2. Искомое слово полностью совпадает по контексту.

3. Встречается семантический кластер, которому принадлежит какое-либо слово.

4. В семантическом описании встречается та же операция.

Назначение весов является отдельным процессом, который проходит под «контролем» специалиста. В итоге должно быть построено дерево семантических кластеров, которое может быть использовано в системе извлечения знаний из текстовых документов.

Для обработки и интерпретации результатов TextMining большое значение имеет визуализация. Визуализация на основе систем TextMining в удобной для пользователя форме позволяет непосредственно задействовать его знания для, например, корректировки запроса, что намного быстрее приведет к поставленной цели.

3. Онтологии

Существующие системы поиска информации имеют ряд значительных недостатков. Во-первых, при поиске возможно получение нерелевантной информации, включающей в себя точные термины с различными смысловыми значениями, что может привести к потере значимой информации. Причина заключается в том, что традиционный подход к получению информации сосредоточен на отношении между запросом пользователя и хранилищем информации. С другой стороны, использование взаимосвязей между подобранными частями информации может указать на не связанную с запросом информацию, но находящуюся в значимом контексте. Во-вторых, для нахождения «точной» значимой информации в информационном источнике требуется просмотр и чтение этого источника специалистом, поскольку поисковая система сама по себе не может извлечь такую информацию из текстового представления, а также объединить и связать информацию, получаемую из различных источников. В-третьих, возникают сложности из-за отсутствия структурированности текстовых источников информации и быстрого их разрастания.

Одним из вариантов решения указанных проблем может быть построение онтологии предметной области, по которой организуется поиск. Одной из особенностей применения онтологий в системах извлечения знаний из текста является необходимость иметь дополнительную лингвистическую составляющую как для распознавания различных способов обозначения понятий (синонимичные термины), так и для семантической интерпретации разнообразных языковых конструкций в отношения между этими понятиями (синонимичные лексико-грамматические конструкции).

На этом этапе, используя дерево семантических кластеров, возможно построение онтологии, которая будет представлять предметную область в виде дерева, вершинами которого будут термины («центры» семантических кластеров или объекты предметной области), а дуги будут определять отношения между вершинами (объектами). Таким образом, объединяя стандартные операции, выполняемые при формировании концептуальной составляющей онтологии [Гладун и др., 2006], [Гаврилова и др., 2001], с теми операциями, которые требуются для лингвистической составляющей, можно предложить алгоритм формирования онтологии с участием эксперта.

1. Формирование экспертом запроса.

2. Семантический анализ запроса специалиста.

3. Формирование концептуальной схемы онтологии на основании профессиональных знаний эксперта в предметной области и результатов работы алгоритмов TextMining.

а) отбор базовых понятий-концептов - формирование кластеров терминов, включенных в запрос. Например: автомобиль, коробка передач, двигатель;

б) классификация базовых понятий с формированием абстрактных понятий - имен классов, которые являются «центрами» семантических кластеров. Здесь должны быть построены словари для работы с объектами предметной области. Т.е. должны быть определены тип объектов, их характеристики. Например: понятие - тип объекта: коробка передач; понятие - тип атрибута объекта: тип коробки, производитель; понятие -- тип характеристики объекта: надежность, безопасность; понятие - тип ситуации: поломка, техническое обслуживание;

в) определение возможных отношений понятий. Например: двигатель ->{описывается}->атрибут, двигатель->{содержит в себе}->узел, узел->{содержит в себе}->узел и т.п.

2. Фактическое наполнение онтологии - соотнесение всех терминов предметной области с понятиями в концептуальной схеме:

а) расширяется словарь понятий за счет наращивания онтологии, если онтология предполагает родовидовые связи (общее->частное, часть->целое) между понятиями одного класса;

б) для каждого понятия словарь дополняется значениями терминов: мощность двигателя = {сильный, слабый}

3. Формирование лингвистической составляющей:

а) фиксируются синонимичные обозначения каждого термина: двигатель = мотор = движок, маломощный = слабый;

б) описываются способы выражения отношений из онтологии в языке - типовые лексико-грамматические конструкции, для чего используется соответствующий лингвистическому анализатору формализм, например [Киселев и др., 2004]. Так, отношение объект->{характеризуется}->характеристика может выражаться в тексте из Интернета такими конструкциями: слабый двигатель, малая мощность двигателя, движок еле тянет, автомобиль с трудом разгоняется и многими другими.

4. Предлагаемая модель автоматизированной системы поиска информации

Пользователь формирует запрос на естественном языке, который передается в семантический анализатор. В результате работы последнего выявляются структурные термины запроса, на основе которых выделяются семантические кластеры терминов. Результатом работы семантического анализатора и алгоритмов TextMining будут рабочие словари терминов, которые могут быть просмотрены пользователем, например, для выделения главенствующего фактора запроса, что, возможно, и будет определять направление дальнейшего поиска. Кроме этого, формируются кластеры документов. Это означает, что поиск становится интерактивной процедурой с участием пользователя.

Найденные документы передаются в базу данных, из которой они могут быть переданы пользователю в виде рефератов, отчетов и др. Эта база может время от времени пополняться или «очищаться» от «ненужных» документов в зависимости от частоты запросов, содержащих термины, понятия таких документов.

Одной из объёмных частей данной схемы является составление рабочего словаря на основе кластеров терминов запроса и онтологии предметной области, по которой проводится поиск. Просмотр и корректировка словарей и онтологии пользователем осуществляется на основании их визуализации, что позволяет ускорить и повысить качество поиска информации.

Построение онтологии позволит осуществлять следующие поиски гораздо быстрее и качественнее, на ее основе возможно построение систему управления знаниями, полученными из текстовой информации.

Заключение. Использование модели, предложенной И.А. Мельчуком, в сочетании с кластеризацией текстов на основе технологии TextMining, на основе которых строится онтология предметной области, могут быть положены в основу построения системы управления знаниями, которая будет сочетать семантический анализ запросов на естественном языке с построением онтологической модели предметной области поиска.

Дальнейшее развитие разработки автоматизированной системы поиска информации заключается в развитии алгоритмов построения кластеризации текстов, рабочих словарей, онтологий, обучении системы, создании адаптаций и оптимизации по скорости обработки текстов.

Список литературы

онтология предметный запросов textmining

[Виноградов и др., 2008]Виноградов Г.П., Мальков А.А., Григорьев В.А.Модели группировки объектов на основе самоорганизующихся сетей, использующих механизмы конкуренции и кооперации. // Сборник трудов Международной научно-технической конференции AIS'08, CAD-2008, «Интеллектуальные системы», «Интеллектуальные САПР», т.2, М.: Физматлит, 2008.

[Гаврилова и др., 2001] Гаврилова Т.А. Использование онтологий в системах управления знаниями // Труды международного конгресса «Искусственный интеллект в XXI веке», Дивноморское, Россия. - М.:Физматлит, 2001.

[Гладун и др., 2006]Гладун А., Рогушина Ю. Онтологии в корпоративных системах // Корпоративные системы. 2006. № 1.

[Киселев и др., 2004]Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск фактов в тексте естественного языка на основе сетевых описаний // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. - М.: Наука, 2004.

[Мельчук, 1974] Мельчук И.А. Опыт теории лингвистических моделей «смысл текст»: семантика, синтаксис. М.: Наука, 1974.

[Feldman, 1996] Feldman D., Hirsh M., Mining Associations in Text in the Presence of Background Knowledge.// Proc. of the 2nd International Conference on Knowledge Discovery (KDD-96), Portland, 1996.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.