Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга
Характеристика решения проблемы выявления фактографической информации из неструктурированных текстовых потоков. Технологические решения, позволяющие извлекать из полнотекстовых документов такие понятия как фирмы, фамилии и географические названия.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 29.01.2019 |
Размер файла | 177,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
А. Г. Додонов, Д. В. Ландэ
Размещено на http://www.allbest.ru/
46
Інформаційно-аналітичні системи
обробки даних
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 4 45
УДК 004.5
Институт проблем регистрации информации НАН Украины
Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга
А.Г. Додонов
Д.В. Ландэ
В настоящее время информационное пространство Интернет развилось до уровня, требующего новых подходов к поиску и анализу информации.
При проведении информационно-аналитических исследований на основе обработки информационного потока, формируемого в Интернет [1], особо актуальной оказывается задача автоматического извлечения из текстов фактографической информации [2]. При этом ввиду значительных объемов и динамики информационных потоков контент-анализ осуществляется сегодня с использованием современных информационно-аналитических систем.
Контент-мониторинг
Очевидно, следует признать, что изначальные парадигмы поисковых систем и контент-анализа, сформированные десятилетия тому назад, уже не отвечают реальной ситуации. Один из подходов к решению задачи извлечения фактов из текстовых документов и выявления их взаимосвязей базируется на технологии контент-мониторинга, который можно рассматривать как непрерывный во времени содержательный анализ информационных потоков с целью получения необходимых качественных и количественных информационных срезов.
Именно непрерывная аналитическая обработка сообщений является самой характерной чертой этого подхода, который позволяет извлекать факты из тестов, выявлять новые понятия, формировать разнообразные статистические отчеты. Названные задачи сегодня охватываются двумя основными технологиями -- извлечением фактографической информации из текстов (Information Extraction [2]) и глубинным анализом текстов (Text Mining [1]).
Современный уровень контент-мониторинга охватывает также задачи выявления взаимосвязей понятий, извлекаемых из документов, группировки этих понятий, визуализации. В этом случае на помощь приходят методы кластерного анализа, позволяющие на основе выявления латентных признаков формировать компактные группы понятий, выявлять главные из них, визуализировать взаимосвязи.
Названные задачи сегодня частично решаются ведущими контент-провайде-рами во всем мире. Так, в 2006 году компания «Яндекс» в рамках своего новостного сервиса предоставила доступ к справочной информации о людях, упоминаемых в СМИ путем автоматического извлечения фактов из текстов и группировки их в пресс-портреты.
В компании «Интегрум-Техно» разработана автоматически пополняемая база данных, содержащая информацию о людях и организациях, связанных отношением «занимать должность» [3]. Основной принцип, используемый при выделении фактов, состоит в следующем: в предложении выделяются лексические единицы, указывающие на то, что в данном месте может встретиться группа «должности» или «компании», затем вокруг этих слов с помощью грамматик строятся определенные именные группы, в которых вершинами являются найденные слова.
Система контент-мониторинга [4] обеспечивает автоматизированный сбор информации с Web-сайтов в режиме реального времени, ее структурирование, группировку по семантическим признакам, а также тематическое избирательное распределение и предоставление доступа к информационным базам данных в поисковых режимах. Перспективным направлением развития технологии InfoStream также является контент-мониторинг, средствами которого обеспечивается решение задач формирования цепочек основных тематических сюжетов, дайджестов, извлечение фактов (понятий) из текстов, построение таблиц взаимосвязей и гистограмм распределения понятий.
Подходы к выявлению фактографических данных из документов
Следует отметить, что подходы к извлечению различных типов понятий из текстов существенно разняться как по контексту их представления, так и по структурным признакам. Так, для выявления принадлежности документа к тематической рубрике могут использоваться специальным образом составленные запросы на информационно-поисковых языках, включающих логические и контекстные операторы, скобки и т.д. Выявление географических названий предполагает использования таблиц, в которых кроме шаблонов написания этих названий используются коды стран, названия регионов и населенных пунктов. В качестве одного из примеров рассмотрим алгоритм выявления названий фирм в текстах документов (рис. 1).
Рис. 1. Алгоритм выявления названий фирм из текстов документов
На вход системы поступает документ, который анализируется в процессе последовательного сканирования. Текст документа сравнивается с шаблонами, соответствующими названиям известных фирм, и если такие присутствуют, то они помещаются в специальную таблицу «документ-фирма». Также система извлечения фактографии предполагает выявление неизвестных изначально названий фирм на основании, как шаблонов, так и структурных исследований текста. При этом, в частности, используется таблица префиксов названий фирм, содержащая такие элементы, как «ООО», «ЗАО», «АО», «Компания» и др.
Выявленные понятия могут служить основой для построения многопрофильных информационных портретов или интерактивных ситуационных карт, соответствующих запросам пользователей [5]. Непосредственно по данным, представленным на ситуационной карте, отражающей наиболее актуальные понятия (термины, тематические рубрики, географические названия, имена персон, названия компаний) возможно выявление взаимосвязей понятий, т.е. сами ситуационные карты могут служить исходными данными для построения таблиц взаимосвязей.
Два подхода к построению таблиц взаимосвязей
Таблицы взаимосвязей понятий [6] строятся как статистические отчеты, отражающие близость (совместную встречаемость в новостных сообщениях или близость по сопутствующему контексту) отдельных понятий. Это симметричные матрицы, элементы которых -- коэффициенты взаимосвязей понятий, соответствующих ее строкам и столбцам. Эти коэффициенты пропорциональны количеству документов входного информационного потока, которые одновременно соответствуют обоим понятиям, или количеству значимых лексических единиц, употребляемых совместно с данными понятиями. Таким образом, взаимосвязь понятий может быть оценена с помощью двух алгоритмов:
-- совместного вхождения -- путем расчета совместного вхождения этих понятий в одни и те же документы;
-- контекстной близости -- путем расчета корреляций наборов ключевых слов, входящих в документы, в которых упоминались данные понятия.
Рассмотрим формальное определение таблицы взаимосвязей понятий TVP?, построенной с помощью первого алгоритма. Обозначим pj -- понятие (j = 1,…, M); Di -- документ (i = 1,…, N); eij -- признак соответствия понятия документу:
иначе .
Можно определить уровень связи понятий pj и pk:
.
Введя обозначение: E = ¦eij¦j=1,…,M; i=1,…,N, получаем:
TVP? = ¦v'jk¦j, k=1,…,M.
Для случая второго алгоритма, учитывающего контекстную близость, таблицу взаимосвязей понятий TVP" определим следующим образом. Обозначим pj -- понятие (j = 1,…, M); Di -- документ (i = 1,…, N); {w1,…, wL} = Wi -- множество ключевых слов, входящих в Di:
.
Введем понятие информационного портрета, как множества ключевых слов, соответствующих понятию pj во всем массиве документов:
.
Введем также понятие словаря системы
S = ¦si¦i=1,…,H
и числовое множество T(pj) c элементами tij, соответствующее информационному портрету:
иначе tij = 0,
T(pj) = ¦tij¦ i=1,…,H .
В этом случае уровень связи понятий pj и pk можно определить следующим образом:
.
Таким образом, таблица взаимосвязей понятий будет иметь вид:
TVP" = ¦v"jk¦j,k=1,…,M.
Следует отметить, что таблица взаимосвязей первого вида всегда отражает взаимосвязи понятий точнее, чем таблица взаимосвязей второго типа, однако, таблица второго типа учитывает взаимосвязи более полно (рис. 2). фактографический информация текстовый документ
Рис. 2. Два варианта таблицы взаимосвязей понятий
Данное утверждение следует из теоремы, состоящей в том, что:
v?jk > 0 v"jk > 0.
Действительно,
(T(pj), T(pk)) = v"jk > 0.
Утверждение, обратное данной теореме, в общем случае неверно. Проведем мысленный эксперимент, подтверждающий это замечание. Рассмотрим два понятия «пингвин» и «белый медведь». Эти понятия могут иметь ненулевое контекстное пересечение за счет таких ключевых слов, как «лед», «мороз», «рыба», однако понятие «пингвин» входит в документы, описывающие фауну Антарктики, а «белый медведь» -- фауну Арктики.
Для переупорядочения понятий из таблицы взаимосвязей с целью выявления блоков -- множеств наиболее взаимозависимых понятий (рис. 3) -- применяются алгоритмы кластерного анализа. Покажем, как можно выделить некоторое число групп взаимосвязанных понятий методом k-means, который, как известно, является одним из самых эффективных для группировки динамических данных. Рассмотрим векторы-строки матрицы TVP - Ei (очевидно, ввиду симметричности матрицы TVP можно было бы рассматривать и столбцы). Простая задача оптимальной группировки векторов Ei в данном случае усложняется необходимостью при перестановке номеров векторов-строк одновременно переставлять соответствующие их компоненты для сохранения симметрии матрицы E.
Суть алгоритма k-means определяется следующим образом: случайным образом выбирается k векторов-строк, которые определяются как центроиды (наиболее типичные представители) кластеров. Затем k кластеров наполняются -- для каждого из оставшихся векторов-строк определяется близость к центроиду соответствующего кластера. После этого вектор-строка приписывается к тому кластеру, к центроиду которого он наиболее близок. Затем строки-векторы группируются и перенумеровываются.
Рис. 3. Трехмерное представление взаимосвязи понятий
Для каждого из новых кластеров заново вычисляется центроид -- вектор-строка, наиболее близкая ко всем векторам из данного кластера (например, тот, сумма скалярных произведений которого с каждым из векторов кластера минимальна).
Произвольный выбор центроидов k-кластеров while процесс формирования не стабилизировался do for каждого вектора-строки do найти центроид, наиболее близкий вектору-строке, приписать вектор-строку сответствующему кластеру end for for каждого кластера с do вычисление центроида кластера по входящим в него элементам end for for каждого вектора-строки do переставить элементы в векторе-строке, соответствующие выполненной перенумерации end for end while |
После этого заново выполняется процесс наполнения кластеров, затем вычисление новых центроидов и т.д., пока процесс формирования кластеров не стабилизируется (или набор центроидов не повторится).
Ниже приведен формальный алгоритм k-means [7].
Заключение
В качестве примеров современного применения технологии контент-монито-ринга можно привести автоматическое выявление основных сюжетных цепочек, формирование рефератов и дайджестов, извлечение фактографий из текстов, выявление взаимосвязей понятий, автоматическую кластеризацию взаимосвязей для выявления наиболее важных из них.
Благодаря уже существующим возможностям систем контент-мониторинга, эта технология может способствовать значительному повышению качества информационно-аналитической работы. По сравнению с традиционными подходами использование технологии контент-мониторинга обеспечивает такие преимущества как получение оперативных количественных и качественных аналитических срезов по мере появления информации в Интернет, своевременное получение необходимой профильной фактографической информации при включении рабочих мест аналитиков в динамическое информационное пространство.
Вместе с тем, своего решения ждут проблемы автоматического выявления тональности взаимосвязей, в простейшем случае -- определение принадлежностей взаимосвязей к положительным (группирующим) или отрицательным (антагонистическим). Также на данном этапе пока рассмотрены взаимосвязи лишь в рамках целостных документов, предполагается расширить анализ взаимосвязей понятий на отдельные их части.
Литература
1. Ландэ Д.В. Основы интеграции информационных потоков. -- К.: Інжиніринг, 2006. -- 240 с.
2. Ralph Grishman. Information extraction: Techniques and Сhallenges. In Information Extraction (International Summer School SCIE-97) // Springer-Verlag. -- 1997.
3. Гершензон Л. М., Ножов И. М., Панкратов Д. В. Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности. // Труды Международного семинара «Диалог'2005» (Звенигород, 1-6 июня 2005 г.). -- М.: Наука, 2005.
4. Додонов А.Г., Ландэ Д.В. Организация сети информационных прокси-серверов // Реєстрація, зберігання і оброб. даних. -- 2006. -- Т. 8, № 3. -- С. 24-31.
5. Григорьев А.Н., Ландэ Д.В. Адаптивный интерфейс уточнения запросов к системе контент-мониторинга InfoStream. // Труды Международного семинара «Диалог'2005» (Звенигород. -- 1-6 июня 2005 г.). -- М.: Наука, 2005. -- С. 109-111.
6. Леліков Г.І., Сороко В.М., Григор'єв О.М., Ланде Д.В. Монiторинг дiяльностi органiв виконавчої влади iз застосуванням комп'ютерної системи контент-аналiзу електронних ЗМI // Вісник державної служби України. -- 2002. -- № 2. -- С. 72-78.
7. Ландэ Д.В. Некоторые методы анализа новостных информационных потоков // Научные труды Донецкого национального технического университета. Серия: Информатика, кибернетика и вычислительная техника (ИКВТ-2005). -- Вып. 93. -- Донецк: ДонНТУ, 2005. -- С. 277-287.
Аннотация
Приведены подходы к решению проблемы выявления фактографической информации из неструктурированных текстовых потоков. Описаны технологические решения, позволяющие извлекать из полнотекстовых документов такие понятия как фирмы, фамилии, географические названия и т.п., а также выявлять силу их взаимосвязей на основе применения двух алгоритмов. Первый из этих алгоритмов основывается на учете совместного вхождения понятий в одни и те же документы, а второй на учете общего для рассматриваемых понятий контекста.
Ключевые слова: контент-мониторинг, информационный поток, выявление понятий, глубинный анализ текстов, взаимосвязь понятий.
Размещено на Allbest.ru
Подобные документы
Общая характеристика и функциональные возможности, внутреннее устройство и принцип работы спутниковых систем мониторинга, особенности их применения в сфере сельского хозяйства. Технология решения задачи мониторинга. Разработка программного обеспечения.
дипломная работа [5,3 M], добавлен 15.05.2014Изучение технологии экспертных систем, которая заключается в том, чтобы получить от эксперта его знания и при необходимости извлекать их из памяти компьютера. Задачи для решения, которых создаются ЭС: интерпретация данных, диагностика, прогнозирование.
реферат [22,6 K], добавлен 12.09.2010Применение компьютерных технологий в подготовке текстовых документов и обработке экономической информации на основе табличных процессоров. Исследование в среде МаthCad поведения кривых спроса и предложения, определение равновесной цены и эластичности.
контрольная работа [659,2 K], добавлен 03.02.2012Элементы автоматизированной системы обработки экономической информации. Информационная модель программного решения задачи "Учет сбыта и реализации готовой продукции", структура и описание реквизитов входных и выходных документов, справочной информации.
курсовая работа [55,6 K], добавлен 30.10.2011Понятие и процесс обработки информации. Технология подготовки текстовых документов и система управления документами. Методы и средства защиты информации. Экспертные и справочно-правовые системы и автоматизация рабочего места и офисной деятельности.
шпаргалка [166,1 K], добавлен 29.07.2010Количественная, сторона процессов обслуживания потоков сообщений в системах распределения информации. Основные задачи теории телетрафика и сведения о методах решения задач. Принципы классификации потоков вызовов. Просеивание потоков и потоки Эрланга.
реферат [124,6 K], добавлен 18.02.2012Основные средства и технологии обработки и редактирования текстовых документов, принципы их использования. Характеристика функциональных возможностей текстового процессора Ms. Word. Описание дополнительных возможностей текстового редактора Word 2003.
курсовая работа [1,4 M], добавлен 19.03.2011Анализ подходов по защите от утечки конфиденциальной информации. Разработать программный модуль обнаружения текстовых областей в графических файлах для решения задач предотвращения утечки конфиденциальной информации. Иллюстрация штрихового фильтра.
дипломная работа [12,8 M], добавлен 28.08.2014Понятие и функциональные особенности, классификация и разновидности текстовых редакторов и процессоров, характеристика некоторых из них: Блокнот, Microsoft Word. Оценка их возможностей по созданию и форматированию документов. Расчет и оформление баланса.
контрольная работа [100,1 K], добавлен 27.04.2013Исследование истории концепции электронного издания для образовательных целей. Характеристика требований к электронному изданию учебного назначения. Анализ технологии создания проекта "Обработка графической информации". Описание алгоритма решения задачи.
курсовая работа [505,8 K], добавлен 13.01.2015