Подход к анализу новостных потоков как дискретных сигналов
Исследование новостной составляющей пространства Интернет. Обработка входных сообщений в системе контент-мониторинга InfoStream. Алгоритм формирования словаря уникальных слов из входного массива. Применение закономерности Хипса к информационному потоку.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 29.01.2019 |
Размер файла | 644,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
8
Информационный центр «ЭЛВИСТИ»
УДК 681.3
Подход к анализу новостных потоков как дискретных сигналов
Д.В. Ландэ
Киев, Украина
Исследование новостной составляющей информационного пространства Интернет, то есть потока новостных сообщений, публикуемых на страницах web-сайтов, должно использовать принципиально новый инструментарий, так как классические методы сегодня уже не всегда приемлемы ввиду резкого увеличения объемов и динамики информационных потоков [1].
Одна из идей, к которой все чаще обращаются в настоящее время, заключается в анализе текстовых массивов как дискретных сигналов, определяемых частотно-семантическими рангами [2] ключевых слов или отдельных сообщений.
В этой статье рассматривается модель, в которой аналогами дискретных сигналов выступают ключевые слова (наиболее ранговые термины) из сообщений, или отдельные сообщения информационных потоков, порождаемых информационными web-сайтами.
В соответствии с приведенным ниже алгоритмом каждому сообщению приписывается вес, который равен усредненной частоте появления во всем информационном потоке входящих в это сообщение значимых ключевых слов.
Очевидно, чем меньше этот вес, тем документ более уникален.
Понятно, что для информационного наполнения модели необходимо использовать достаточно мощный текстовый корпус, который был доступен автору -- это база данных системы контент-мониторинга InfoStream [3].
Система InfoStream применяется для решения задач автоматизированного сбора новостной информации с открытых web-сайтов, а также обеспечения доступа к ней в поисковых режимах. Эта разработанная в компании ElVisti система в настоящее время охватывает ретроспективные базы данных, представляющие собой текстовый корпус объемом свыше 20 млн. документов из 2000 источников информации.
Обработка входных сообщений в системе контент-мониторинга InfoStream и поступление их в рассматриваемую аналитическую модель выполнялась по следующей схеме.
Ниже приведен двухпроходный алгоритм формирования словаря уникальных слов из входного массива из N сообщений, а затем вычисления весов отдельных сообщений.
Таким образом, вес сообщения определяется по формуле:
,
где WD -- вес сообщения; w -- ключевое слово из сообщения; |D| -- количество ключевых слов в документе (в рассматриваемой модели 1 ? |D| ? 12). Как видно, при значениях в в указанном выше диапазоне w является монотонно возрастающей функцией от n.
Как следует из алгоритма, каждое сообщение в данной модели рассматривается как массив ключевых слов (Bag of Words [4]), хотя при построении модели учитывались структурные особенности сообщений [5], в частности, при определении веса ключевых слов учет их местоположения в тексте.
В классической пространственно-векторной модели [6] значения рангов отдельных ключевых слов определяется формулой TF•IDF. В данном случае TF -- это локальная частота ключевого слова (Term Frequency), а IDF -- величина, обратная частоте встречаемости во всем потоке документов, содержащих данный терм (Inverse Document Frequency).
В то время как локальная частота ключевого слова в документе говорит о его значимости в пределах документа, то обратная частота встречаемости свидетельствует об уникальности ключевого слова во всем потоке документов.
В рассматриваемой модели в соотношении TF•IDF фактически анализируется лишь второй сомножитель (а точнее, обратная ему величина), исходя из того, что заведомо высокий уровень значений TF определяется процедурой выявления ключевых слов, выполняемой ранее системой контент-мониторинга.
В рамках модели в качестве веса ключевых слов используется частота их появлений во входном информационном потоке. В свою очередь, эта частота зависит от объема самого потока и от количества уникальных слов, то есть объема автоматически формируемого словаря уникальных слов. В компьютерной лингвистике эмпирический закон Хипса [7] связывает объем документа с объемом словаря уникальных слов, входящих в этот документ. В соответствии с законом Хипса, эти значения связываются соотношением:
v(n) = Kn в,
где v -- объем словаря уникальных слов, составленный из текста, состоящего из n уникальных слов; K и в -- определяемые эмпирически параметры. Для европейских языков K принимает значения от 10 до 100, а в -- от 0,4 до 0,6.
В случае анализа не полных текстов, а фиксированного количества нормированных ключевых слов, эти параметры изменяются, однако сама закономерность Хипса остается в силе (рис. 1).
Рис. 1. График зависимости количества уникальных ключевых слов от общего количества ключевых слов потока подчиняется закону Хипса. При этом K = 4, в = 0,65
Джордж Зипф [8] экспериментально показал, что, если для какого-либо достаточно большого текста составить список всех встретившихся в нем слов, а затем ранжировать эти слова в порядке убывания частоты встречаемости в тексте, то для любого слова произведение его ранга в этом списке и частоты встречаемости в тексте будет величиной постоянной, то есть
f •r = c,
где f -- частота встречаемости слова в тексте; r -- ранг слова в списке; с -- эмпирически определяемая константа.
В рассматриваемой же нами модели в соответствии с приведенным выше алгоритмом распределение весов ключевых слов вполне вписывается в закон Зипфа (рис. 2), сформулированный изначально для ранговых распределений ненормированных слов в полнотекстовых документах.
Однако в модели вместо ранжированного сортированного словаря используется простой порядковый номер. Феномен объясняется тем, что в соответствии с положениями математической статистики большая часть наиболее часто встречающихся слов попадает в некоторое ограниченное количество первых по порядку сообщений.
Рис. 2. Зависимость частоты уникальных слов в потоке от их порядковых номеров
Статистически связанная с названными выше закономерностями зависимость параметров распределения весов отдельных сообщений от их порядковых номеров в потоке (рис. 3) имеет вполне определенное смысловое объяснение.
Рис. 3. Графики зависимости веса сообщений от их номеров в потоке.
Оказывается, что амплитуда этого распределения возрастает с увеличением количества сообщений в потоке (рис. 4).
Рис. 4. Основные области графика распределения весов сообщений
Действительно, средний вес уникального ключевого слова равен общему числу слов из потока, разделенному на количество уникальных слов:
w(n) = n/v(n) = n1-в / K.
Этому же значению равно и математическое ожидание веса отдельного сообщения из потока. новостной информационный уникальный интернет
Рассматривается два информационных потока (50 и 300 сообщений)
Изображенные на рис. 4. основные области графика дискретного сигнала, соответствующего информационному потоку, можно охарактеризовать следующим образом.
Горизонтальные зоны: 1, 2, 3 -- топ-новости;
4, 5, 6 -- мэйнстрим;
7, 8, 9 -- маргинальная зона.
Вертикальные зоны: 1, 4, 7 -- устаревающие сообщения;
2, 5, 8 -- основная тематика;
3, 6, 9 -- последние известия.
На рис. 5 приведен документ, попавший в маргинальную зону при анализе потоков сообщений по компьютерной тематике, полученных с web-сайта ITWARE (http://itware.com.ua).
Этот пример с очевидностью подтверждает уникальность содержания сообщений из этой области по сравнению с мэйнстрим-сообщениями по информационным технологиям. Это всего лишь одно из многих практических подтверждений корректности данной модели, подхода к созданию инструментария в рамках системы контент-мониторинга, обеспечивающего просмотр маргинальных сообщений по тематике, определяемой запросом, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.
Этот инструментарий логически дополняет уже существующий в системе InfoStream сервис получения сюжетов из наиболее популярных сообщений [9].
Рис. 5. Сообщение по компьютерной тематике из маргинальной зоны
Заключение
В заключение заметим, что предложенная модель охватывает лишь некоторые частотно-семантические подходы к рассмотрению текстовых информационных потоков как дискретных сигналов.
Получены первые результаты исследования, которое может включать в себя более полный учет структурных особенностей текстов, анализ корреляции сигналов, фильтрацию типа «сигнал-шум» и т.д.
Можно также предположить, что к обработке текстовых потоков будут применимы такие популярные сегодня техники обработки сигналов как анализ главных компонент, слепое разделение источников, вейвлеты.
Библиография
1. Ландэ Д.В., Брайчевский С.М. Современные информационные потоки: актуальная проблематика // Научно-техническая информация. Сер. 1. -- 2005. -- № 11. -- С. 21-33.
2. Del Corso G.M., Gulli A., and Romani F. Ranking a stream of news // Proc. 14-th International World Wide Web Conference. -- Chiba (Japan). -- 2005. -- Р. 97-106.
3. Ландэ Д.В. Сканер системы контент-мониторинга InfoStream // Открытые информационные и компьютерные интегрированные технологии: Сб. науч. трудов. -- Харьков: НАКУ «ХАИ», 2005. -- Вып. 28. -- С. 53-58.
4. Salton G., Allan J. and Buckley C. Approaches to passage retrieval in full text information systems // ACM SIGIR conference on R&D in Information Retrieval. -- 1993. -- Р. 49-58.
5. Baeza-Yates R. and Ribeiro-Neto B. Modern Information Retrieval. -- Addison-Wesley, 1999.
6. Chakrabarti Soumen. Mining the web. Discovery knowledge from hypertext data. -- San Francisco: Publisher Morgan Kaufmann, 2002. -- 344 p.
7. Heaps H.S. Information Retrieval: Computation and Theoretical Aspects. -- Orlando: Academic Press Inc., FL, 1978. -- Р. 206-208.
8. Zipf, George Kingsley. Human behaviour and the principle of least effort. -- Cambridge: Wesley, MA, 1949.
9. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. -- М.: Вильямс, 2005. -- 272 с.
Аннотация
УДК 681.3
Подход к анализу новостных потоков как дискретных сигналов. Д. В. Ландэ, Информационный центр «ЭЛВИСТИ», ул. М. Кривоноса, 2а, 03037 Киев, Украина
Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных зна-чений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.
Ключевые слова: информационные потоки, обработка сигналов, Интернет, текстовый корпус, ранжирование
Размещено на Allbest.ru
Подобные документы
Понятие сети Интернет, история ее развития и сервисы. Преимущества и направления использования Интернет для бизнеса. Технологии доставки новостного контента. Организация и коммерческое применение e-mail рассылки. Бизнес-модели веб-представительств.
курсовая работа [5,5 M], добавлен 18.12.2010Функции формирования массива времени. Формирование массива входного напряжения, массива выходного напряжения. Функция вывода таблицы, расчета заданной точности, вывода титульного листа. Запись в файл массива времени. Блок–схема и текст программы.
курсовая работа [155,6 K], добавлен 22.04.2012Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.
курсовая работа [3,4 M], добавлен 27.08.2017Разработка и реализация типовых алгоритмов обработки одномерных массивов на языке Delphi. Максимальный и минимальный элемент массива. Значение и расположение элементов массива. Элементы массива, находящиеся перед максимальным или минимальным элементом.
лабораторная работа [12,8 K], добавлен 02.12.2014Особенности посылки сообщений в Windows и в Win32 API. Обработка состояний простоя. Маршрутизация сообщений в Windows 3.x. Основные циклы обработки сообщений. Применение многопотоковых приложений. Основные возможности редакторов WinWord 97 и Notepad.
лекция [35,9 K], добавлен 24.06.2009Проектирование модуля ввода/вывода аналоговых, дискретных и цифровых сигналов, предназначенного для сбора данных со встроенных дискретных и аналоговых входов с последующей их передачей в сеть. Расчет временных задержек. Выбор резисторов на генераторе.
курсовая работа [307,1 K], добавлен 25.03.2012Процедура формирования массивов отсчетов входного и выходного сигналов и времени; вычисление величины заданной характеристики выходного сигнала: функция нахождения длительности импульса; организация текстовых файлов; построение графиков в системе MathCad.
курсовая работа [75,9 K], добавлен 28.09.2012Особенности вычисления количества информации, получаемой при фазовом сдвиге сигнала, если известна его амплитуда. Расчет информационных характеристик источников дискретных сообщений и дискретного канала. Особенности применения дискретизации и квантования.
курсовая работа [557,7 K], добавлен 15.11.2009Изучение математического описания дискретных детерминированных сигналов и овладеть программными средствами их моделирования в MatLab. Взаимосвязь между дискретным и дискретным нормированным временем. Линейная комбинация дискретных гармонических сигналов.
лабораторная работа [1,6 M], добавлен 16.10.2021Простота поиска информации в системе "Google.ru", его технологии и функции. История термина и его применение. Выбор условий поиска, автоматическое исключение общих слов. Калькулятор и конвертирование валют. Похожие страницы и проверка правописания.
реферат [19,2 K], добавлен 21.02.2011