Главная Коллекция "Otherreferats" Программирование, компьютеры и кибернетика Подход к анализу новостных потоков как дискретных сигналов

Подход к анализу новостных потоков как дискретных сигналов

Исследование новостной составляющей пространства Интернет. Обработка входных сообщений в системе контент-мониторинга InfoStream. Алгоритм формирования словаря уникальных слов из входного массива. Применение закономерности Хипса к информационному потоку.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	29.01.2019
Размер файла	644,3 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Информационный центр «ЭЛВИСТИ»

УДК 681.3

Подход к анализу новостных потоков как дискретных сигналов

Д.В. Ландэ

Киев, Украина

Исследование новостной составляющей информационного пространства Интернет, то есть потока новостных сообщений, публикуемых на страницах web-сайтов, должно использовать принципиально новый инструментарий, так как классические методы сегодня уже не всегда приемлемы ввиду резкого увеличения объемов и динамики информационных потоков [1].

Одна из идей, к которой все чаще обращаются в настоящее время, заключается в анализе текстовых массивов как дискретных сигналов, определяемых частотно-семантическими рангами [2] ключевых слов или отдельных сообщений.

В этой статье рассматривается модель, в которой аналогами дискретных сигналов выступают ключевые слова (наиболее ранговые термины) из сообщений, или отдельные сообщения информационных потоков, порождаемых информационными web-сайтами.

В соответствии с приведенным ниже алгоритмом каждому сообщению приписывается вес, который равен усредненной частоте появления во всем информационном потоке входящих в это сообщение значимых ключевых слов.

Очевидно, чем меньше этот вес, тем документ более уникален.

Понятно, что для информационного наполнения модели необходимо использовать достаточно мощный текстовый корпус, который был доступен автору -- это база данных системы контент-мониторинга InfoStream [3].

Система InfoStream применяется для решения задач автоматизированного сбора новостной информации с открытых web-сайтов, а также обеспечения доступа к ней в поисковых режимах. Эта разработанная в компании ElVisti система в настоящее время охватывает ретроспективные базы данных, представляющие собой текстовый корпус объемом свыше 20 млн. документов из 2000 источников информации.

Обработка входных сообщений в системе контент-мониторинга InfoStream и поступление их в рассматриваемую аналитическую модель выполнялась по следующей схеме.

Ниже приведен двухпроходный алгоритм формирования словаря уникальных слов из входного массива из N сообщений, а затем вычисления весов отдельных сообщений.

Таким образом, вес сообщения определяется по формуле:

где W_D -- вес сообщения; w -- ключевое слово из сообщения; |D| -- количество ключевых слов в документе (в рассматриваемой модели 1 ? |D| ? 12). Как видно, при значениях в в указанном выше диапазоне w является монотонно возрастающей функцией от n.

Как следует из алгоритма, каждое сообщение в данной модели рассматривается как массив ключевых слов (Bag of Words [4]), хотя при построении модели учитывались структурные особенности сообщений [5], в частности, при определении веса ключевых слов учет их местоположения в тексте.

В классической пространственно-векторной модели [6] значения рангов отдельных ключевых слов определяется формулой TF•IDF. В данном случае TF -- это локальная частота ключевого слова (Term Frequency), а IDF -- величина, обратная частоте встречаемости во всем потоке документов, содержащих данный терм (Inverse Document Frequency).

В то время как локальная частота ключевого слова в документе говорит о его значимости в пределах документа, то обратная частота встречаемости свидетельствует об уникальности ключевого слова во всем потоке документов.

В рассматриваемой модели в соотношении TF•IDF фактически анализируется лишь второй сомножитель (а точнее, обратная ему величина), исходя из того, что заведомо высокий уровень значений TF определяется процедурой выявления ключевых слов, выполняемой ранее системой контент-мониторинга.

В рамках модели в качестве веса ключевых слов используется частота их появлений во входном информационном потоке. В свою очередь, эта частота зависит от объема самого потока и от количества уникальных слов, то есть объема автоматически формируемого словаря уникальных слов. В компьютерной лингвистике эмпирический закон Хипса [7] связывает объем документа с объемом словаря уникальных слов, входящих в этот документ. В соответствии с законом Хипса, эти значения связываются соотношением:

v(n) = Kn^в,

где v -- объем словаря уникальных слов, составленный из текста, состоящего из n уникальных слов; K и в -- определяемые эмпирически параметры. Для европейских языков K принимает значения от 10 до 100, а в -- от 0,4 до 0,6.

В случае анализа не полных текстов, а фиксированного количества нормированных ключевых слов, эти параметры изменяются, однако сама закономерность Хипса остается в силе (рис. 1).

Рис. 1. График зависимости количества уникальных ключевых слов от общего количества ключевых слов потока подчиняется закону Хипса. При этом K = 4, в = 0,65

Джордж Зипф [8] экспериментально показал, что, если для какого-либо достаточно большого текста составить список всех встретившихся в нем слов, а затем ранжировать эти слова в порядке убывания частоты встречаемости в тексте, то для любого слова произведение его ранга в этом списке и частоты встречаемости в тексте будет величиной постоянной, то есть

f •r = c,

где f -- частота встречаемости слова в тексте; r -- ранг слова в списке; с -- эмпирически определяемая константа.

В рассматриваемой же нами модели в соответствии с приведенным выше алгоритмом распределение весов ключевых слов вполне вписывается в закон Зипфа (рис. 2), сформулированный изначально для ранговых распределений ненормированных слов в полнотекстовых документах.

Однако в модели вместо ранжированного сортированного словаря используется простой порядковый номер. Феномен объясняется тем, что в соответствии с положениями математической статистики большая часть наиболее часто встречающихся слов попадает в некоторое ограниченное количество первых по порядку сообщений.

Рис. 2. Зависимость частоты уникальных слов в потоке от их порядковых номеров

Статистически связанная с названными выше закономерностями зависимость параметров распределения весов отдельных сообщений от их порядковых номеров в потоке (рис. 3) имеет вполне определенное смысловое объяснение.

Рис. 3. Графики зависимости веса сообщений от их номеров в потоке.

Оказывается, что амплитуда этого распределения возрастает с увеличением количества сообщений в потоке (рис. 4).

Рис. 4. Основные области графика распределения весов сообщений

Действительно, средний вес уникального ключевого слова равен общему числу слов из потока, разделенному на количество уникальных слов:

w(n) = n/v(n) = n^1-^в / K.

Этому же значению равно и математическое ожидание веса отдельного сообщения из потока. новостной информационный уникальный интернет

Рассматривается два информационных потока (50 и 300 сообщений)

Изображенные на рис. 4. основные области графика дискретного сигнала, соответствующего информационному потоку, можно охарактеризовать следующим образом.

Горизонтальные зоны: 1, 2, 3 -- топ-новости;

4, 5, 6 -- мэйнстрим;

7, 8, 9 -- маргинальная зона.

Вертикальные зоны: 1, 4, 7 -- устаревающие сообщения;

2, 5, 8 -- основная тематика;

3, 6, 9 -- последние известия.

На рис. 5 приведен документ, попавший в маргинальную зону при анализе потоков сообщений по компьютерной тематике, полученных с web-сайта ITWARE (http://itware.com.ua).

Этот пример с очевидностью подтверждает уникальность содержания сообщений из этой области по сравнению с мэйнстрим-сообщениями по информационным технологиям. Это всего лишь одно из многих практических подтверждений корректности данной модели, подхода к созданию инструментария в рамках системы контент-мониторинга, обеспечивающего просмотр маргинальных сообщений по тематике, определяемой запросом, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.

Этот инструментарий логически дополняет уже существующий в системе InfoStream сервис получения сюжетов из наиболее популярных сообщений [9].

Рис. 5. Сообщение по компьютерной тематике из маргинальной зоны

Заключение

В заключение заметим, что предложенная модель охватывает лишь некоторые частотно-семантические подходы к рассмотрению текстовых информационных потоков как дискретных сигналов.

Получены первые результаты исследования, которое может включать в себя более полный учет структурных особенностей текстов, анализ корреляции сигналов, фильтрацию типа «сигнал-шум» и т.д.

Можно также предположить, что к обработке текстовых потоков будут применимы такие популярные сегодня техники обработки сигналов как анализ главных компонент, слепое разделение источников, вейвлеты.

Библиография

1. Ландэ Д.В., Брайчевский С.М. Современные информационные потоки: актуальная проблематика // Научно-техническая информация. Сер. 1. -- 2005. -- № 11. -- С. 21-33.

2. Del Corso G.M., Gulli A., and Romani F. Ranking a stream of news // Proc. 14-th International World Wide Web Conference. -- Chiba (Japan). -- 2005. -- Р. 97-106.

3. Ландэ Д.В. Сканер системы контент-мониторинга InfoStream // Открытые информационные и компьютерные интегрированные технологии: Сб. науч. трудов. -- Харьков: НАКУ «ХАИ», 2005. -- Вып. 28. -- С. 53-58.

4. Salton G., Allan J. and Buckley C. Approaches to passage retrieval in full text information systems // ACM SIGIR conference on R&D in Information Retrieval. -- 1993. -- Р. 49-58.

5. Baeza-Yates R. and Ribeiro-Neto B. Modern Information Retrieval. -- Addison-Wesley, 1999.

6. Chakrabarti Soumen. Mining the web. Discovery knowledge from hypertext data. -- San Francisco: Publisher Morgan Kaufmann, 2002. -- 344 p.

7. Heaps H.S. Information Retrieval: Computation and Theoretical Aspects. -- Orlando: Academic Press Inc., FL, 1978. -- Р. 206-208.

8. Zipf, George Kingsley. Human behaviour and the principle of least effort. -- Cambridge: Wesley, MA, 1949.

9. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. -- М.: Вильямс, 2005. -- 272 с.

Аннотация

УДК 681.3

Подход к анализу новостных потоков как дискретных сигналов. Д. В. Ландэ, Информационный центр «ЭЛВИСТИ», ул. М. Кривоноса, 2а, 03037 Киев, Украина

Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных зна-чений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.

Ключевые слова: информационные потоки, обработка сигналов, Интернет, текстовый корпус, ранжирование

Размещено на Allbest.ru

статья "Подход к анализу новостных потоков как дискретных сигналов" скачать

Подобные документы

Разработка мультимедийного сайта
Понятие сети Интернет, история ее развития и сервисы. Преимущества и направления использования Интернет для бизнеса. Технологии доставки новостного контента. Организация и коммерческое применение e-mail рассылки. Бизнес-модели веб-представительств.

курсовая работа [5,5 M], добавлен 18.12.2010
Расчет на ЭВМ характеристик выходных сигналов электрический цепей
Функции формирования массива времени. Формирование массива входного напряжения, массива выходного напряжения. Функция вывода таблицы, расчета заданной точности, вывода титульного листа. Запись в файл массива времени. Блок–схема и текст программы.

курсовая работа [155,6 K], добавлен 22.04.2012
Разработка онтологии экономических рисков на основе мониторинга информации, получаемой из новостных лент
Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.

курсовая работа [3,4 M], добавлен 27.08.2017
Обработка одномерных массивов. Выделение минимального и максимального элементов массива
Разработка и реализация типовых алгоритмов обработки одномерных массивов на языке Delphi. Максимальный и минимальный элемент массива. Значение и расположение элементов массива. Элементы массива, находящиеся перед максимальным или минимальным элементом.

лабораторная работа [12,8 K], добавлен 02.12.2014
Сообщения и их обработка
Особенности посылки сообщений в Windows и в Win32 API. Обработка состояний простоя. Маршрутизация сообщений в Windows 3.x. Основные циклы обработки сообщений. Применение многопотоковых приложений. Основные возможности редакторов WinWord 97 и Notepad.

лекция [35,9 K], добавлен 24.06.2009
Модуль ввода/вывода аналоговых, дискретных и цифровых сигналов
Проектирование модуля ввода/вывода аналоговых, дискретных и цифровых сигналов, предназначенного для сбора данных со встроенных дискретных и аналоговых входов с последующей их передачей в сеть. Расчет временных задержек. Выбор резисторов на генераторе.

курсовая работа [307,1 K], добавлен 25.03.2012
Расчет на ЭВМ характеристик выходных сигналов электрических цепей
Процедура формирования массивов отсчетов входного и выходного сигналов и времени; вычисление величины заданной характеристики выходного сигнала: функция нахождения длительности импульса; организация текстовых файлов; построение графиков в системе MathCad.

курсовая работа [75,9 K], добавлен 28.09.2012
Расчет информационных характеристик источников сообщений, сигналов и каналов
Особенности вычисления количества информации, получаемой при фазовом сдвиге сигнала, если известна его амплитуда. Расчет информационных характеристик источников дискретных сообщений и дискретного канала. Особенности применения дискретизации и квантования.

курсовая работа [557,7 K], добавлен 15.11.2009
Дискретные детерминированные сигналы
Изучение математического описания дискретных детерминированных сигналов и овладеть программными средствами их моделирования в MatLab. Взаимосвязь между дискретным и дискретным нормированным временем. Линейная комбинация дискретных гармонических сигналов.

лабораторная работа [1,6 M], добавлен 16.10.2021
Интернет. Технология поиска информации в системе "Google.ru"
Простота поиска информации в системе "Google.ru", его технологии и функции. История термина и его применение. Выбор условий поиска, автоматическое исключение общих слов. Калькулятор и конвертирование валют. Похожие страницы и проверка правописания.

реферат [19,2 K], добавлен 21.02.2011

Другие документы, подобные "Подход к анализу новостных потоков как дискретных сигналов"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.