Система автоматизированного построения графа социальной сети
Обработка страниц социальных сетей и блогосферы (парсинг) для генерации таблицы упоминаний. Поиск соответствия паттерна экстрактора комбинации CSS-классов и HTMLтегов. Настройки экспорта данных и атрибутов поля "Автор комментария" в модуле Feeds.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 30.05.2017 |
Размер файла | 1018,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
РЕФЕРАТ
СИСТЕМА АВТОМАТИЗИРОВАННОГО ПОСТРОЕНИЯ ГРАФА СОЦИАЛЬНОЙ СЕТИ
На сегодняшний день существует некоторое количество автоматизированных систем классификации и анализа интернет-текстов. Такая услуга оказалась весьма востребована на ниве интернет-продаж, такие сервисы предлагают своим клиентам, например, автоматическую индикацию тональности сообщений. Основаны такие системы, как правило, на соотнесении имеющего текстового фрагмента с заранее составленными тональными словарями.
Безусловно, это направление будет интенсивно развиваться в ближайшие годы, но на данный момент наиболее адекватным инструментом анализа представляется ручная обработка данных мониторинга социальных медиа.
В Северо-Кавказском научном центре высшей школы Южного федерального университета (далее СКНЦ ВШ ЮФУ) разработана программная платформа автоматизированного построения графа социальной сети при помощи обработки интернет страниц социальных сетей. Система применялась для автоматизированного сбора данных в период избирательной кампании в Государственную думу в 2011 году.
Для генерации таблицы упоминаний обработка страниц социальных сетей и блогосферы (парсинг) реализуется с применением модуля Feeds для CMF Drupal с плагином SimpleHTMLDOMparser. В процессе парсинга система обращается к странице с информацией в Интернет и производит выборку данных из DOM дерева HTML в соответствии с набором тегов и каскадной таблицей стилей.
Рассмотрим конфигурацию модуля для импорта в систему комментариев пользователей. Система разработана таким образом, что позволяет разделять собираемую информацию на элементарные части, каждая из которых представляет собой отдельное поле в базе данных. Импорт производится гранулярно, что впоследствии дает возможность гибко фильтровать результаты. В набор собираемых данных (см. рис. 1) входят следующие экстракторы (Extractions):
заголовок комментария;
автор комментария - никнейм пользователя в сети или блоге;
автор журнала - запись, к которой относится комментарий;
комментарий - собственно текст;
ссылка на комментарий;
журнал комментатора;
журнал автора поста;
дата комментирования - актуальная дата размещения комментария в сети.
Рис. 1. - Настройки экспорта данных в модуле Feeds
Поиск данных производится иерархически:
Сначала система инспектирует Root node pattern (корневой образец) и определяет набор повторяющихся элементов на странице.
Затем в каждом из таких элементов ведется поиск соответствия паттерна экстрактора комбинации CSS-классов и HTMLтегов.
В частности, для поля «Автор комментария» необходимо установить паттерн «ul[class='info b-hlist b-hlist-middot'] li a» с атрибутом «plaintext». Такой паттерн обеспечивает погружение в дерево DOM HTML и экспортирует все элементы, которые находятся в ненумерованном списке «ul» с классом «info b-hlist b-hlist-middot» и обернуты тегом «a» (см. рис. 2).
Рис. 2. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле Feeds
Каждый экспортируемый элемент в системе соответствует предустановленным полям типа материала Feed item (экземпляр фида). Таблица соответствия представлена на рис. 3.
Рис. 3. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле Feeds
После настройки всех необходимых параметров система начинает парсинг по выбранным ключевым словам. В результате в системе будет сформирована таблица с набором данных о комментариях, представленная на рис. 4: заголовок комментария, дата его импорта в систему, автор комментария, автор блога, к которому относится комментарий, текст комментария, дата его публикации в сети Интернет, тональность (позитив, негатив, нейтрал), определяемая пользователем системы.
Рис. 4. - таблица с данными комментариев
Для дальнейшего анализа графа производится экспорт сформированной таблицы в один из поддерживаемых форматов. Для экспорта следует воспользоваться кнопкой XLS, находящейся под таблицей, рис. 5.
Рис. 5. - кнопки экспорта таблицы
В процессе экспорта можно наблюдать за его прогрессом: отображается время, которое необходимо системе для формирования файла и процент выполнения, рис. 6. социальный сеть таблица паттерн
Рис. 6. - процесс экспорта данных
Результат экспорта - файл, который следует сохранить для дальнейшего анализа графа, рис. 7.
Рис. 7. - результат экспорта
Реализации технологии мониторинга агитационных действий с помощью разработанной модели и с использованием описанного алгоритма будут полезны на разных этапах мониторинга социальных сетей и избирательного процесса - как во время избирательных кампаний, так и в периоды между ними. Также возможно применение системы сбора данных и формирования графа в любых сферах деятельности, где структура может быть представлена в виде графа с четко выраженными узлами и связям между ними.
Литература
1. Меркулова, Т.В. Моделирование динамики пользователей социальных сетей [Электронный ресурс] / Т.В. Меркулова, Е.Ю. Кононова. http://www.cyber.kharkov.ua/ contentimages/ 15.model.soc.net.pdf - Загл. с экрана. - Яз. рус.
2. Губанов Д.А. Социальные сети: модели информационного влияния, управления и противоборства [Текст] / Под ред. чл.-кор. РАН Д.А. Новикова / Д.А. Губанов, Д.А. Новиков, А.Г. Чхартишвили. - М.: Изд-во физ.-мат. лит., 2010. - 228 с.
3. Сайт сервиса Яндекс.Поиск по блогам [Электронный ресурс] / 2011. Режим доступа: http://blogs.yandex.ru, свободный. -- Загл. с экрана. -- Яз.рус.
4. Семантический анализ текста онлайн [Электронный ресурс] / 2011. Режим доступа: http://advego.ru/text/seo, свободный. -- Загл. с экрана. -- Яз.рус.
Размещено на Allbest.ru
Подобные документы
Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Типы социальных сетей, их влияние на современного человека. Тенденции и перспективы развития социальных сетей. Внедрение в повседневную жизнь мобильных интернет-технологий. Анализ социальной сети на примере VK.com - крупнейшей в Рунете социальной сети.
курсовая работа [48,0 K], добавлен 07.08.2013Классификация компьютерных сетей. Назначение компьютерной сети. Основные виды вычислительных сетей. Локальная и глобальная вычислительные сети. Способы построения сетей. Одноранговые сети. Проводные и беспроводные каналы. Протоколы передачи данных.
курсовая работа [36,0 K], добавлен 18.10.2008Разработка системы мониторинга пользовательских запросов в крупной социальной сети - ООО "В Контакте". Анализ маркетингового положения компании в сфере социальных сетей. Характеристика потребительского сегмента. Техническая поддержка социальных сетей.
дипломная работа [3,0 M], добавлен 25.10.2015Обзор рынка мобильных приложений, социальных сетей, аналогов. Обзор инструментов разработки: Android Studio, Microsoft visual С# 2012, PostgreeSQL, API Открытых данных Вологодской области, API Социальных сетей. Программный код, разработка интерфейса.
дипломная работа [2,6 M], добавлен 10.07.2017История развития и классификация социальных сетей. Характеристика наиболее популярных социальных сетей. Сети Рунета: ВКонтакте, Одноклассники, Мой круг, Мой мир (на www.mail.ru), RuSpace. Социальная сеть Facebook как лидер среди социальных сетей.
реферат [4,0 M], добавлен 23.06.2012Технология построения сетей передачи данных. Правила алгоритма CSMA/CD для передающей станции. Анализ существующей сети передачи данных предприятия "Минские тепловые сети". Построение сети на основе технологии Fast Ethernet для административного здания.
дипломная работа [2,5 M], добавлен 15.02.2013Понятие базы данных в Microsoft Access, описание таблицы как объекта. Назначение запросов, форм, отчетов и страниц. Макросы и модули в СУБД. Порядок создания базы данных, ввод описания поля. Свойства полей таблиц. Построение реляционной модели данных.
презентация [389,6 K], добавлен 18.01.2014Изучение понятия социальных сетей. Классификация социальных сетей по тематике и по форме общения их аудитории: общетематические, специализированные, глобальные, мультимедийные, блоги, микроблоги. Facebook - одна из самых популярных социальных сетей.
презентация [405,6 K], добавлен 05.06.2013Преимущества и недостатки нейронных сетей с радиальными базисными функциями (РБФ). Функции newrbe и newrb для построения РБФ общего вида и автоматической настройки весов и смещений. Пример построения нейронной сети с РБФ в математической среде Matlab.
лабораторная работа [238,7 K], добавлен 05.10.2010