Подход к анализу новостных потоков как дискретных сигналов

Исследование новостной составляющей пространства Интернет. Обработка входных сообщений в системе контент-мониторинга InfoStream. Алгоритм формирования словаря уникальных слов из входного массива. Применение закономерности Хипса к информационному потоку.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 29.01.2019
Размер файла 644,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

8

Информационный центр «ЭЛВИСТИ»

УДК 681.3

Подход к анализу новостных потоков как дискретных сигналов

Д.В. Ландэ

Киев, Украина

Исследование новостной составляющей информационного пространства Интернет, то есть потока новостных сообщений, публикуемых на страницах web-сайтов, должно использовать принципиально новый инструментарий, так как классические методы сегодня уже не всегда приемлемы ввиду резкого увеличения объемов и динамики информационных потоков [1].

Одна из идей, к которой все чаще обращаются в настоящее время, заключается в анализе текстовых массивов как дискретных сигналов, определяемых частотно-семантическими рангами [2] ключевых слов или отдельных сообщений.

В этой статье рассматривается модель, в которой аналогами дискретных сигналов выступают ключевые слова (наиболее ранговые термины) из сообщений, или отдельные сообщения информационных потоков, порождаемых информационными web-сайтами.

В соответствии с приведенным ниже алгоритмом каждому сообщению приписывается вес, который равен усредненной частоте появления во всем информационном потоке входящих в это сообщение значимых ключевых слов.

Очевидно, чем меньше этот вес, тем документ более уникален.

Понятно, что для информационного наполнения модели необходимо использовать достаточно мощный текстовый корпус, который был доступен автору -- это база данных системы контент-мониторинга InfoStream [3].

Система InfoStream применяется для решения задач автоматизированного сбора новостной информации с открытых web-сайтов, а также обеспечения доступа к ней в поисковых режимах. Эта разработанная в компании ElVisti система в настоящее время охватывает ретроспективные базы данных, представляющие собой текстовый корпус объемом свыше 20 млн. документов из 2000 источников информации.

Обработка входных сообщений в системе контент-мониторинга InfoStream и поступление их в рассматриваемую аналитическую модель выполнялась по следующей схеме.

Ниже приведен двухпроходный алгоритм формирования словаря уникальных слов из входного массива из N сообщений, а затем вычисления весов отдельных сообщений.

Таким образом, вес сообщения определяется по формуле:

,

где WD -- вес сообщения; w -- ключевое слово из сообщения; |D| -- количество ключевых слов в документе (в рассматриваемой модели 1 ? |D| ? 12). Как видно, при значениях в в указанном выше диапазоне w является монотонно возрастающей функцией от n.

Как следует из алгоритма, каждое сообщение в данной модели рассматривается как массив ключевых слов (Bag of Words [4]), хотя при построении модели учитывались структурные особенности сообщений [5], в частности, при определении веса ключевых слов учет их местоположения в тексте.

В классической пространственно-векторной модели [6] значения рангов отдельных ключевых слов определяется формулой TFIDF. В данном случае TF -- это локальная частота ключевого слова (Term Frequency), а IDF -- величина, обратная частоте встречаемости во всем потоке документов, содержащих данный терм (Inverse Document Frequency).

В то время как локальная частота ключевого слова в документе говорит о его значимости в пределах документа, то обратная частота встречаемости свидетельствует об уникальности ключевого слова во всем потоке документов.

В рассматриваемой модели в соотношении TFIDF фактически анализируется лишь второй сомножитель (а точнее, обратная ему величина), исходя из того, что заведомо высокий уровень значений TF определяется процедурой выявления ключевых слов, выполняемой ранее системой контент-мониторинга.

В рамках модели в качестве веса ключевых слов используется частота их появлений во входном информационном потоке. В свою очередь, эта частота зависит от объема самого потока и от количества уникальных слов, то есть объема автоматически формируемого словаря уникальных слов. В компьютерной лингвистике эмпирический закон Хипса [7] связывает объем документа с объемом словаря уникальных слов, входящих в этот документ. В соответствии с законом Хипса, эти значения связываются соотношением:

v(n) = Kn в,

где v -- объем словаря уникальных слов, составленный из текста, состоящего из n уникальных слов; K и в -- определяемые эмпирически параметры. Для европейских языков K принимает значения от 10 до 100, а в -- от 0,4 до 0,6.

В случае анализа не полных текстов, а фиксированного количества нормированных ключевых слов, эти параметры изменяются, однако сама закономерность Хипса остается в силе (рис. 1).

Рис. 1. График зависимости количества уникальных ключевых слов от общего количества ключевых слов потока подчиняется закону Хипса. При этом K = 4, в = 0,65

Джордж Зипф [8] экспериментально показал, что, если для какого-либо достаточно большого текста составить список всех встретившихся в нем слов, а затем ранжировать эти слова в порядке убывания частоты встречаемости в тексте, то для любого слова произведение его ранга в этом списке и частоты встречаемости в тексте будет величиной постоянной, то есть

f r = c,

где f -- частота встречаемости слова в тексте; r -- ранг слова в списке; с -- эмпирически определяемая константа.

В рассматриваемой же нами модели в соответствии с приведенным выше алгоритмом распределение весов ключевых слов вполне вписывается в закон Зипфа (рис. 2), сформулированный изначально для ранговых распределений ненормированных слов в полнотекстовых документах.

Однако в модели вместо ранжированного сортированного словаря используется простой порядковый номер. Феномен объясняется тем, что в соответствии с положениями математической статистики большая часть наиболее часто встречающихся слов попадает в некоторое ограниченное количество первых по порядку сообщений.

Рис. 2. Зависимость частоты уникальных слов в потоке от их порядковых номеров

Статистически связанная с названными выше закономерностями зависимость параметров распределения весов отдельных сообщений от их порядковых номеров в потоке (рис. 3) имеет вполне определенное смысловое объяснение.

Рис. 3. Графики зависимости веса сообщений от их номеров в потоке.

Оказывается, что амплитуда этого распределения возрастает с увеличением количества сообщений в потоке (рис. 4).

Рис. 4. Основные области графика распределения весов сообщений

Действительно, средний вес уникального ключевого слова равен общему числу слов из потока, разделенному на количество уникальных слов:

w(n) = n/v(n) = n1-в / K.

Этому же значению равно и математическое ожидание веса отдельного сообщения из потока. новостной информационный уникальный интернет

Рассматривается два информационных потока (50 и 300 сообщений)

Изображенные на рис. 4. основные области графика дискретного сигнала, соответствующего информационному потоку, можно охарактеризовать следующим образом.

Горизонтальные зоны: 1, 2, 3 -- топ-новости;

4, 5, 6 -- мэйнстрим;

7, 8, 9 -- маргинальная зона.

Вертикальные зоны: 1, 4, 7 -- устаревающие сообщения;

2, 5, 8 -- основная тематика;

3, 6, 9 -- последние известия.

На рис. 5 приведен документ, попавший в маргинальную зону при анализе потоков сообщений по компьютерной тематике, полученных с web-сайта ITWARE (http://itware.com.ua).

Этот пример с очевидностью подтверждает уникальность содержания сообщений из этой области по сравнению с мэйнстрим-сообщениями по информационным технологиям. Это всего лишь одно из многих практических подтверждений корректности данной модели, подхода к созданию инструментария в рамках системы контент-мониторинга, обеспечивающего просмотр маргинальных сообщений по тематике, определяемой запросом, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.

Этот инструментарий логически дополняет уже существующий в системе InfoStream сервис получения сюжетов из наиболее популярных сообщений [9].

Рис. 5. Сообщение по компьютерной тематике из маргинальной зоны

Заключение

В заключение заметим, что предложенная модель охватывает лишь некоторые частотно-семантические подходы к рассмотрению текстовых информационных потоков как дискретных сигналов.

Получены первые результаты исследования, которое может включать в себя более полный учет структурных особенностей текстов, анализ корреляции сигналов, фильтрацию типа «сигнал-шум» и т.д.

Можно также предположить, что к обработке текстовых потоков будут применимы такие популярные сегодня техники обработки сигналов как анализ главных компонент, слепое разделение источников, вейвлеты.

Библиография

1. Ландэ Д.В., Брайчевский С.М. Современные информационные потоки: актуальная проблематика // Научно-техническая информация. Сер. 1. -- 2005. -- № 11. -- С. 21-33.

2. Del Corso G.M., Gulli A., and Romani F. Ranking a stream of news // Proc. 14-th International World Wide Web Conference. -- Chiba (Japan). -- 2005. -- Р. 97-106.

3. Ландэ Д.В. Сканер системы контент-мониторинга InfoStream // Открытые информационные и компьютерные интегрированные технологии: Сб. науч. трудов. -- Харьков: НАКУ «ХАИ», 2005. -- Вып. 28. -- С. 53-58.

4. Salton G., Allan J. and Buckley C. Approaches to passage retrieval in full text information systems // ACM SIGIR conference on R&D in Information Retrieval. -- 1993. -- Р. 49-58.

5. Baeza-Yates R. and Ribeiro-Neto B. Modern Information Retrieval. -- Addison-Wesley, 1999.

6. Chakrabarti Soumen. Mining the web. Discovery knowledge from hypertext data. -- San Francisco: Publisher Morgan Kaufmann, 2002. -- 344 p.

7. Heaps H.S. Information Retrieval: Computation and Theoretical Aspects. -- Orlando: Academic Press Inc., FL, 1978. -- Р. 206-208.

8. Zipf, George Kingsley. Human behaviour and the principle of least effort. -- Cambridge: Wesley, MA, 1949.

9. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. -- М.: Вильямс, 2005. -- 272 с.

Аннотация

УДК 681.3

Подход к анализу новостных потоков как дискретных сигналов. Д. В. Ландэ, Информационный центр «ЭЛВИСТИ», ул. М. Кривоноса, 2а, 03037 Киев, Украина

Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных зна-чений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.

Ключевые слова: информационные потоки, обработка сигналов, Интернет, текстовый корпус, ранжирование

Размещено на Allbest.ru


Подобные документы

  • Понятие сети Интернет, история ее развития и сервисы. Преимущества и направления использования Интернет для бизнеса. Технологии доставки новостного контента. Организация и коммерческое применение e-mail рассылки. Бизнес-модели веб-представительств.

    курсовая работа [5,5 M], добавлен 18.12.2010

  • Функции формирования массива времени. Формирование массива входного напряжения, массива выходного напряжения. Функция вывода таблицы, расчета заданной точности, вывода титульного листа. Запись в файл массива времени. Блок–схема и текст программы.

    курсовая работа [155,6 K], добавлен 22.04.2012

  • Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.

    курсовая работа [3,4 M], добавлен 27.08.2017

  • Разработка и реализация типовых алгоритмов обработки одномерных массивов на языке Delphi. Максимальный и минимальный элемент массива. Значение и расположение элементов массива. Элементы массива, находящиеся перед максимальным или минимальным элементом.

    лабораторная работа [12,8 K], добавлен 02.12.2014

  • Особенности посылки сообщений в Windows и в Win32 API. Обработка состояний простоя. Маршрутизация сообщений в Windows 3.x. Основные циклы обработки сообщений. Применение многопотоковых приложений. Основные возможности редакторов WinWord 97 и Notepad.

    лекция [35,9 K], добавлен 24.06.2009

  • Проектирование модуля ввода/вывода аналоговых, дискретных и цифровых сигналов, предназначенного для сбора данных со встроенных дискретных и аналоговых входов с последующей их передачей в сеть. Расчет временных задержек. Выбор резисторов на генераторе.

    курсовая работа [307,1 K], добавлен 25.03.2012

  • Процедура формирования массивов отсчетов входного и выходного сигналов и времени; вычисление величины заданной характеристики выходного сигнала: функция нахождения длительности импульса; организация текстовых файлов; построение графиков в системе MathCad.

    курсовая работа [75,9 K], добавлен 28.09.2012

  • Особенности вычисления количества информации, получаемой при фазовом сдвиге сигнала, если известна его амплитуда. Расчет информационных характеристик источников дискретных сообщений и дискретного канала. Особенности применения дискретизации и квантования.

    курсовая работа [557,7 K], добавлен 15.11.2009

  • Изучение математического описания дискретных детерминированных сигналов и овладеть программными средствами их моделирования в MatLab. Взаимосвязь между дискретным и дискретным нормированным временем. Линейная комбинация дискретных гармонических сигналов.

    лабораторная работа [1,6 M], добавлен 16.10.2021

  • Простота поиска информации в системе "Google.ru", его технологии и функции. История термина и его применение. Выбор условий поиска, автоматическое исключение общих слов. Калькулятор и конвертирование валют. Похожие страницы и проверка правописания.

    реферат [19,2 K], добавлен 21.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.