Исследование методов анализа социальных сетей для определения групп пользователей программного продукта

Методы анализа социальных сетей для поиска групп пользователей нового программного продукта. Требования к целевой аудитории пользователей программного продукта. Оценка достоинств и недостатков продукта по сравнению с программным обеспечением конкурентов.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.06.2018
Размер файла 143,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 004.89

Исследование методов анализа социальных сетей для определения групп пользователей программного продукта

С.Ф. Чалый,

А.А. Чередниченко

Рассмотрена проблема поиска групп пользователей для внедряемого программного продукта с использованием социальных сетей. Для решения задачи были проанализированы основные методы и подходы к исследованию социальных сетей.

Ключевые слова: анализ социальных сетей, социальная единица, программный продукт, поиск пользователей.

Розглянуто проблему пошуку груп користувачів для програмного продукту, що впроваджується, з використанням соціальних мереж. Для розв'язання задачі було проаналізовано основні методи та підходи до дослідження соціальних мереж.

It was considered the problem of searching for groups of users to deploying the product with the use of social networks. To solve the problem analyzed the main methods and approaches to the study of social networks.

В последние годы проблематика анализа социальных сетей переходит из сферы формальной теории социологических исследований в современную стратегию исследования социальных структур. Анализ социальных сетей может быть использован для прогнозирования поведения социальных элементов - участников сети, определения специфики их взаимодействия, классификации участников социальной сети, потому, несомненно, является интереснейшей задачей исследований.

В связи со стремительным развитием информационных технологий, а также мобильных технологий, современный человек получил возможность виртуального общения с использованием различных социальных сетей. Получение информации о поведении актеров в таких социальных сетях открывает возможности к быстрому и удобному анализу социальных структур.

Изучение сетей в социальных науках имеет сравнительно короткую историю. С одной стороны, это объясняется относительной новизной самого понятия, с другой - технологичностью расчета сетей, связанной с применением специализированных программных средств.

Зачастую для компании-разработчика программного продукта задача внедрения на рынок готового программного продукта, как и перспективность его разработки, затрудняется отсутствием представления о текущей ситуации на рынке. Возможность выделить группу целевых пользователей, а также рассмотреть их преимущества и недостатки в контексте конкурирующих продуктов, а также мнений пользователей на основе информации, полученной посредством анализа социальных единиц является очень ценной для разработчиков и дистрибьюторов программного обеспечения. Исходя из изложенного, применение анализа социальных сетей для определения групп целевых пользователей программного продукта, безусловно, является актуальным.

Анализ литературы

Основные направления анализа социальных сетей рассмотрел Александр Чураков [1], выделив четыре основных направления, а также предложив стратегии сбора данных для анализа социальных сетей.

Подходы к анализу социальных сетей были также описаны в работе Т.В. Батуры [2], здесь также приведено краткое описание наиболее популярных на текущий момент социальных сетей, а также применение для анализа теории графов.

Анализ близости, а также уровня доверия и использование их в анализе с помощью теории графов в контексте анализа социальных сетей были рассмотрены Робертом Ханнеманом [3].

Анализ данных, а также алгоритмы обхода графов социальной сети и применения кластеризации с рассмотрением различных метрик в своих работах описывал К. Аггарвал [4].

Однако в рассмотренных работах не исследован вопрос анализа социальных сетей с целью определения групп пользователей программного продукта, что свидетельствует об актуальности темы статьи.

Цель и задачи исследования

Целью данной работы является исследование методов анализа социальных сетей, а также разработка типовой процедуры для более точного поиска групп пользователей программного продукта.

Исходными данными для задачи являются:

– перечень свойств и характеристик программного продукта;

– перечень целевых социальных сетей для проведения исследования;

– возможные требования к целевой аудитории программного продукта.

Задача анализа социальных сетей для поиска групп пользователей программного продукта состоит в выделении группы перспективных пользователей программного продукта, а также информации для оценки достоинств и недостатков программного продукта по сравнению с конкурирующим программным обеспечением.

Эффективное определение группы целевых пользователей программного продукта, а также оценка спроса на программный продукт и возможности по проведению мероприятий с его перспективной целевой аудиторией позволит снизить к минимуму риски при внедрении разрабатываемого программного обеспечения.

Для решения данной задачи разработать метода анализа, который учитывал бы заметки пользователей, вложения, а также ссылки пользователей на иные ресурсы сети.

Основные направления анализа социальных сетей

В настоящее время выделяются четыре основных подхода к анализу социальных сетей: структурный; ресурсный; нормативный; динамический.

Указанные подходы к анализу социальных сетей позволяют выполнить: структурный анализ и анализ поведения связей; статистический анализ социальных сетей с рассмотрением их возможного масштабирования; анализ содержания социальных сетей (анализ текста, общей информации с произвольными типами данных, а также медиаданных); определение сообществ в рамках социальных сетей. Решение последних двух задач позволяет определить регионы сети, внутри которых происходит наиболее активное в заданных рамках взаимодействие участников социальной сети, в частности, пользователей программных продуктов. Отметим, что анализ содержания социальных сетей подразумевает выделение и анализ четырех видов контента сети:

ѕ анализ общей информации с произвольными типами данных;

ѕ анализ текстовой информации;

ѕ анализ ссылок;

ѕ анализ вложений.

Исходные данные для анализа социальных сетей при выборе групп пользователей программного продукта

Одной из особенностей анализа социальных сетей является широкий круг пользователей, которые не представляют интереса для исследователя с точки зрения собственной социальной направленности. Такое замечание может быть уместным для отсечения участка социальной сети, не причастного к использованию программных продуктов - использование таргетированного исследования, уделяющего наибольшее внимание пользователям, для которых программные продукты являются сферой наибольшего интереса (в сфере бизнеса, сфере развлечений, промышленных и научных целях). Пользователь же, активно интересующийся и проявляющий активность в социальных сетях на темы, связанные с информационными технологиями, с большей вероятностью войдет в группу конечных пользователей, нежели пользователь, не показывающий социальной активности, связанной с тематикой разработки, либо использования программных продуктов, либо связанных с ними проблем.

Большую важность в определении группы пользователей, которые должны быть включены в список сущностей, подвергаемых исследованию, является активность пользователя в «нишевых» социальных сетях - сетях, направленных на разработку, поддержку, использование программных продуктов, такие как StackOverflow, GitHub, Habrahabr, Advogato, Identi.ca. Некоторые из перечисленных сервисов могут быть названы социальными сетями очень условно, однако тот факт, что пользователь связан сданным веб-сайтом и проявляет в его рамках определенную активность, может гарантировать возможную заинтересованность пользователя в программном продукте, или, по крайней мере, полезность для дальнейшего исследования. Указанная активность может быть вычислена как с использованием API, так и с использованием простого контент-анализа на основе существующих в сети внутренних рейтингов.

При анализе социальных сетей в контексте поставленной задачи предлагается использовать комбинированный подход. Комбинирование различных методов анализа с применением контент-анализа является сложным подходом, использование которого влечет к необходимости к расширению, комбинированию и повторному использованию наборов исследовательских данных. В состав таких данных входят:

– текстовая информация пользователей, включая ссылки на внешние ресурсы;

– профили пользователей и их элементы;

– вложенная информация пользователей (attachments).

Сбор указанных данных, полученных с использованием анализа контента, является дорогостоящим и затратным по времени процессом, что ведет к необходимости их усовершенствования и повторного использования при проведении повторных исследований.

Использование фраз, имеющих произвольный вид, а также высокую сложность, как с позиции наличия терминологии, так и с позиции построения, характерно для описания программных продуктов. Поэтому целесообразно использовать специально структурированный лексический словарь [5]. Такой словарь представляет собой матрицу, оптимизированную для поиска начальной и последующих форм слова, а также синонимы и антонимы (с указанием контекста, в котором слово не должно быть использовано) в комбинации с анализом текстовой информации.

Последняя отбирается из следующих исходных данных:

1) выбранных текстовых полей различных сущностей (что поможет исключить заведомо субъективные регионы анализа);

2) сущностей, определенных путем применения алгоритмов кластеризации по нескольким критериям (не подвергающимся сомнению и не требующим дополнительного применения анализа контента), и выбранных как пересечение данных кластеров;

3) сущностей и блоков текста, выбранных по наличию соответствующих тегов (ключевых слов), которые идентифицируют пользователя, либо локальный блок сгенерированного им контента как подходящий для анализа в данной области.

В целом модель контента социальной сети, используемого при выявлении групп пользователей программного продукта, можно представить следующим образом.

(1)

где E - запись;

S - субъект социальной сети, выполнивший действие;

O - объект социальной сети, над которым совершили действие;

Ac - тип совершенного действия;

R - параметр, содержащий внешние ссылки, прикрепленные к записи;

At - объект, присоединенный к записи;

B - текстовое поле записи.

Модель контента дает возможнось возможность формализовать параметры различных записей и применить общий алгоритм для их анализа с учетом различных параметров. Важнейшим параметром, не подверженным декомпозиции, остается текстовое поле записи, поскольку именно оно содержит ценную информацию, недоступную при автоматизированном исследовании без применения лингвистического анализа.

Метод выявления групп пользователей на основе анализа социальных сетей

Предлагаемый метод выявления групп пользователей базируется на многократном использовании алгоритма кластеризации.

Среди рассмотренных алгоритмов кластеризации, был выбран плотностный алгоритм DBSCAN [6]. Данный алгоритм является решением проблемы разбиения изначально пространственных данных на кластеры, имеющие произвольную форму и способен выполнить распознание кластеров различной формы. Сложность алгоритма составляет O(n*log n). Данный алгоритм базируется на идее о том, что внутри кластера значительно повышена плотность точек (объектов, социальных единиц), по сравнению с плотностью снаружи кластера (также плотность в областях с шумом ниже плотности любого из кластеров).

Исходными данными для данного алгоритма являются изначально пространственные данные, что требует выбора метрик для преобразования рассмотренной ранее входной информации.

Метод включает в себя 6 приведенных ниже этапов. Алгоритм, реализующий данный метод, представлен на рисунке 1.

Основные этапы предлагаемого метода выявления групп пользователей на основе анализа социальных сетей:

1. Подготовка данных по ключевым словам, ссылкам и вложенным объектам;

2. Кластеризация данных каждого типа;

Рисунок 1 - Разработанный алгоритм выделения групп пользователей программного продукта на основе анализа контента социальных сетей

3. Выполнение оценки результатов и корректировка параметров по каждому виду исходных данных;

4. Получение результирующего множества на основе пересечения кластеров;

5. Проверка результирующего множества и корректировка исходных данных при необходимости;

6. Отображение полученного множества объектов на их пользователей.

Предложен метод анализа социальных сетей для определения групп пользователей программного продукта, использующий исходные данные трех видов: текстовая информация пользователей, включая ссылки на внешние ресурсы; профили пользователей и их элементы; вложенная информация пользователей (attachments). Указанные исходные данные содержат информацию об отношении пользователей к предлагаемому программному продукту.

Метод включат этапы подготовки данных каждого вида и их последующей кластеризации с использованием алгоритма DBSCAN.

Метод предусматривает проверку множества, полученного по результатам кластеризации. Результирующее множество отображается на множество пользователей программного продукта.

Разработанный метод обеспечивает возможность выявления пользователей программного продукта на основе анализа контента социальной сети.

социальный сеть программный целевой

Литература

1. Чураков А. Н. Анализ социальных сетей. Социологические исследования (Социс), 2001.- С. 109-121.

2. Батура Т. В. Модели и методы анализа компьютерных социальных сетей. Программные продукты и системы. - 2013. - N 3. - С. 130-137.

3. Hanneman R., Riddle M. Introduction to Social Network Methods.

4. Charu C. Aggarwal Social Network Data Analytics.Springer New York Dordrecht Heidelberg London, 2011. - 502 с.

5. А. А. Иудин Контент-анализ текстов: компьютерные технологии. Нижний Новгород : Изд-во НГУ им. Н.И. Лобачевского, 2010. - 37 с.

6. Большакова Е. И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011. - 272 с.

Размещено на Allbest.ru


Подобные документы

  • Анализ методов и средств выявления мнений пользователей социальных сетей. Обзор средств мониторинга и анализа, подбор необходимого программного обеспечения и технических средств. Разработка архитектуры базы данных, реализация программных модулей.

    дипломная работа [3,7 M], добавлен 19.01.2017

  • Характеристика программного продукта и стадий разработки. Расчет затрат на разработку и договорной цены, эксплуатационных расходов, связанных с использованием нового программного продукта. Оценка конкурентоспособности. Изучение, оценка рыночного спроса.

    курсовая работа [139,0 K], добавлен 22.09.2008

  • Основные требования к составу и параметрам технических средства. Верификация программного продукта. Расширение функционала программы и его реализация. Отладка и тестирование программного продукта. Тестирование программы в граничных и реальных условиях.

    курсовая работа [1,3 M], добавлен 29.12.2014

  • Особенности алгоритмов, критерии качества. Создание и применение программного продукта на языке Delphi. Тип операционной системы. Внутренняя структура программного продукта. Руководство пользователя и программиста, расчет себестоимости и цены программы.

    дипломная работа [1,5 M], добавлен 12.06.2009

  • Требования к обеспечению надежного функционирования программы. Отказы из-за некорректных действий пользователей системы. Требования к исходным кодам и языкам программирования, к программным средствам, используемым программой. Алгоритм получения данных.

    дипломная работа [1,5 M], добавлен 22.11.2015

  • Архитектура программного продукта и требования к платформе, обоснование выбора разработки. Закономерности и основные этапы алгоритмизации и программирования, а также отладка и тестирование продукта. Разработка и содержание руководства пользователя.

    дипломная работа [2,3 M], добавлен 19.01.2017

  • Создание программного продукта, представляющего моделирование на компьютере логнормального распределения, определение вероятностной оценки стоимости актива. Описание работы программного продукта. Работа с графиками, таблицами, математическими функциями.

    курсовая работа [742,7 K], добавлен 08.01.2009

  • Общие требования охраны труда во время работы, а также в аварийных ситуациях. Использование метрик программного продукта при ревьюировании. Проверка целостности программного кода и анализ потоков данных. Сценарии использования программного продукта.

    отчет по практике [2,0 M], добавлен 28.11.2022

  • Технологии разработки программного обеспечения. Процедура постановки задачи, определения требований. Последовательность действий логической, разветвленной и циклической структуры. Терминология программирования. Этапы создания программного продукта.

    презентация [793,8 K], добавлен 15.11.2010

  • Применение промышленных технологий создания программного продукта. Описания принципов, методов, применяемых процессов и операций. Общие понятия методологии разработки программного обеспечения (ПО). Сравнение современных методологий проектных групп.

    курсовая работа [1,6 M], добавлен 04.12.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.