Распространение новостной информации

Социальные сети, структура коммуникации online-оffline. Типология сетей виртуального пространства. Концепция "лидеров мнений" П. Лазарсфельда, ее соотнесение с онлайн медиа. Оценка системы мониторинга социальных сетей в качестве метода сбора данных.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 21.06.2016
Размер файла 79,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Альтернативный подход призывает исследователей не думать о Больших данных как о панацее и тем более не отказываться от теоретических рамок. В данном случае, ученые говорят о Больших данных как инструменте для познания реальности, а не как о уже существующем знании. Более того, процесс анализа и интерпретации данных очень субъективен, особенно в ситуации исследования социальных медиа, что приводит к необходимости комплексного анализа: «Big Data is at its most effective when researchers take account of the complex methodological processes that underlie the analysis of social data» .

В статье Social Science in the Era of Big Data Sandra Gonzбlez-Bailуn доказывает, что «старые» теории помогают понять организацию и функционирование социальных отношений в виртуальном пространстве, более того, на основе новых данных дополнить уже существующую теорию. В частности это, в первую очередь, относится к сетевому анализу, где возможности Больших данных позволяют проследить за формированием социальных сетей, их функционированием, формирует представление о структуре связей в виртуальном пространстве, также можно следить за динамикой изменений этих социальных сетей во времени и пространстве.

Автор также предлагает рассмотреть, как Большие данные могут развить существующие теории о поведении масс и социальном влиянии. В частности, речь идет о взаимодействии массы (публики) и медиа. Известный французский социолог Габриель Тард в своих работах подчеркивал, что СМИ формирует общественное мнение, которое зарождается в процессе коммуникации между людьми. В век информационных технологий становится особенно актуально исследовать данную теорию, особенно при учете «раздробленности» современных СМИ. Так, в работе Twilight of the Gods?: How the Internet Challenged Russian Television News Frames in the Winter Protests of 2011-12 рассматривается ситуация современных российских медиа. Так, исследователи выяснили, что официальные телевизионные каналы и интернет-газеты сообщают одну и ту же информацию различными способами, что, как следствие, ведет к различному понимаю одного и того же события. Более того, виртуальные СМИ на сегодняшний день имеют ряд значительных преимуществ: возможность быстрого реагирования, распространение «гражданских» журналистов (аналитические статьи пользователей, не принадлежащие каким-либо газетным изданиям), взаимодействие газеты и публики (пользователи могут сами присылать фотографии с места событий, оставлять комментарии) - все это значительно повышает доверие масс к виртуальному изданию.

С другой стороны, в западных странах актуальна дискуссия о правомерности использования Больших данных. В частности, выдвигается тезис о том, что использование пользовательских данных нарушает их частные права и даже при гарантии анонимности и попытке «обезличить» данные остается возможность вычислить конкретного человека. Все это может стать угрозой для репутации человека, а иногда даже его жизни. Главный вопрос заключается в определении границы между частным и публичным: можно ли оперировать публичными данными и сообщениями пользователей? Ведь существуют различные настройки приватности и, если человек хочет ограничить круг лиц, имеющих право просматривать содержание его контента, то он легко может это сделать. С другой стороны, правомерно ли использование каких-либо публичных данных без оповещения и информирования пользователя?

2.6 Онлайн исследования в социологии: новые методы анализа данных

На сегодняшний день анализ социальных сетей и медиа, Интернет-сообществ, пользователей в целом используется в основном в маркетинге. Компания может отслеживать мнение своих потребителей, вступать с ними в дискуссии, реагировать на проблемы, более того, компания может также следить и за своими конкурентами. Все это позволяет им эффективно управлять производством, строить взаимоотношения с потребителями, следить за своим имиджем и так далее.

Для социологии - это все еще практически неопробованный метод, который только входит в исследовательские практики единичными случаями. Однако многие ученые прогнозируют стремительное развитие новых методов работы с информацией в Интернете. Это связано с тем, что в Интернет-пространствах хранится и ежедневно производится и потребляется огромное количество информации. Эти данные идут огромными потоками, которые трудно охватить и собрать самостоятельно, без каких-либо специализированных инструментов. Все это превращается в новое поле для социологических исследований, которое требует как определенных возможностей для сбора информации, так и для ее анализа.

Главной задачей для социологов на сегодняшний день становится обеспечение валидности данных и возможности построения вероятностной выборки. Во многом данная проблема связана с правовыми и этическими нормами. Владельцы сайта не вправе разглашать информацию о своих пользователях (например, возраст, пол, место жительства, если человек сам не предоставил открытого доступа к этим данным), однако, именно такие социально-демографические характеристики важны практически для любого исследования.

Рассмотрим работы современных исследователей в данном направлении.

Если раньше СМИ вели скорее монолог, излагая новости, события, происходящие в мире, городе или стране, то с момента их перехода в Интернет-пространства начинается взаимодействие с аудиторией. Пользователи оставляют комментарии, вступают в дискуссии, имеют возможность обратиться к экспертам и журналистам, но, что более важно, все это происходит в реальном времени. Дальше люди могут сами разносить полученную или увиденную ими информацию, вовлекая все больше и больше людей в этот виртуальный диалог. Все это может открыто хранится на различных сайтах, что уже дает информацию для исследователя. Первые, «чистые» реакции людей на различные события, происходящие в настоящее время. Такие потоки информации могут стать хорошей основой для социологических исследований. Но существует множество ограничений, тормозящих развитие новых методов в гуманитарных науках.

В работе Хью Макея «Information and the Transformation of Sociology: Inter-activity and Social Media Monitoring» обсуждается выход новых автоматизированных методов сбора информации на первый план, в то время как, такие традиционные методы как опросы и интервью, постепенно теряют свою значимость: «social media monitoring tools come to the fore - because of the vast scope of their data, its granularity, and its capacity to allow so many dimensions of the data to be cross tabulated».

Автор на примере исследовательских практик BBC демонстрирует два метода работы с социальными медиа с помощью продуктов компании Sysomos:

1. Sysomos MAP (Media Analysis Platform)

· Web-аналитика - предоставление количественной информации об особенностях различных сайтов, исходя из активности их пользователей

· Сбор контента - занесение в базу всех найденных сообщений, написанных пользователями по какой-либо тематике

· Анализ настроений - качественный анализ собранного контента

Данный инструмент позволяет в реальном времени увидеть, что обсуждается в Сети, какие мнения являются лидирующими, на каких Интернет-площадках ведутся активные дискуссии (блоги, социальные сети, форумы). Также можно сравнить, как предоставляется и обсуждается информация на разных сайтах, произвести сегментацию пользователей по демографическим характеристикам и их активности.

· Heartbeat - Social Media Monitoring Dashboard

Позволяет произвести более детальный анализ конкретных дискуссий, возникшей вокруг какого-либо события или новости, определить эмоциональную окраску сообщений и мнений. То есть, можно проследить за реакцией пользователей на данную тематику, увидеть, как распространяется мнение или новость, какие вызывает эмоции у различных групп пользователей.

Однако ключевая проблема состоит в том, что все эти инструменты во многом недоступны исследователям. То есть, они принадлежат частным владельцам и это вызывает необходимость оплаты их услуг (по предоставлению этих инструментов сбора информации), либо платы за готовые базы данных. Более того, эти инструменты разработаны и используются в маркетинговых исследованиях. Однако уже сейчас прогнозируется использование данных инструментов и в других сферах.

Например, Департамент защиты в Америке планирует использовать инструменты мониторинга социальных сетей для отслеживания потоков информации в публичных пространствах Интернета, обнаружения дезинформации, а так же попытки предотвращения реальных беспорядков и общественных волнений .

Исследовательские практики в России

В России исследование Интернет-пространств только начинает развиваться. Однако уже сейчас, многие исследователи рассматривают новые инструменты и методики, а также размышляют о новых возможностях анализа такой информации.

Например, проект, разработанный в Санкт-Петербургском национальном исследовательском университете информационных технологий и оптики (НИУ ИТМО), «Социодинамика» . Целью данного проекта является создание специализированного инструмента, позволяющего проводить социометрический анализ в социальных сетях. Для демонстрации возможностей работы центра были проанализированы сообщества в Интернете, обсуждающие законы о пропаганде гомосексуализма и педофилии. Данная тема активно обсуждалась в различных регионах: с одной стороны, выступали защитники прав меньшинств, с другой - ярые противники гомосексуализма.

Исследователи ставили перед собой задачу рассмотрения плотности связей внутри сообщества и между отдельными пользователями, количество таких связей, анализ количества записей во времени и измерения настроения обсуждений. На основе автоматически собранных сообщений по заданным ключевым словам, были построены различные социограммы (см. Приложение 1). В ходе анализа было выявлено, что пользователи самоорганизуются в сообщества на основе обсуждений, выявлены лидеры мнений, представлена динамика обсуждений и всплесков (резкое увеличение количества сообщений по данной тематике).

Главным же выводом исследования стало доказательство возможности применения методик центра для социометрических исследований. Следовательно, данные инструменты и техники могут стать основой для различных исследований по другим тематикам как в социодинамике, так и в каких-либо других гуманитарных исследованиях.

Другой интересный проект предоставил Фонд содействия изучению общественного мнения.

Исследователи решили провести эксперимент: произвести прогноз на политических выборах президента в Венесуэле в апреле 2013 года (исследование проводилось с 13 марта по 14 апреля) . Было проанализировано 6 378 390 упоминаний и 827 385 авторов. Составленный прогноз полностью совпал с официальными результатами голосования (50,7% голосов за Николаса Мадуро и 48,8% за Энрике Каприлеса). Эксперимент подтвердил эффективность данной методики для политического прогнозирования. В дальнейшем исследователи планируют провести подобные исследования и в России.

В работе Анни Петит «Как обычное исследование» также обсуждается возможность применения метода анализа социальных сетей. Автор предлагает рассмотреть новые методы онлайн-исследований в контексте «традиционных» методов социологии. В своей работе Петит доказывает, что в пространстве социальных сетей можно найти те же возможности и ограничения, что и при проведении онлайн-опросов.

1. Сбор данных. Вместо анкетных вопросов - поиск уже написанных мнений. Главное условие достижения полноты выборки - максимально возможное количество сайтов, где возможно найти интересующие нас мнения людей. В онлайн-опросах используется либо готовая база (обычно в маркетинговых исследованиях), либо выборка «снежного шара», распространение через рекламу и так далее. В обоих случаях исследователь ищет людей, которые могут дать какую-либо информацию, мнение по интересующей его (исследователя) теме.

2. Качество данных. Вне зависимости от методы сбора данных, исследователь может столкнуться с проблемой искажения данных. Респонденты могут намеренно предоставлять ложные данные, некачественно заполнять анкеты (одинаковые ответы в таблицах, слишком быстрое заполнение, несоответствие ответов в одинаковых вопросах или вопросах-ловушка и так далее). Похожие ситуации можно наблюдать и в социальных сетях, например, существуют сообщения, где в обычном, с первого взгляда, тексте пользователя содержатся различные ссылки, не имеющие отношения к обсуждаемой теме. В обоих случаях существуют методы устранения таких данных из выборки.

3. Выборка. Существуют различные «традиционные» методы построения выборки, которые применимы и к онлайн-опросам. При использовании метода анализа социальных сетей также необходимо строить выборку, но по несколько иным основаниям. В данном случае, критерием отбора являются различные сообщения пользователей, содержащие ключевые слова по тематике, интересующей исследователя.

4. Взвешивание. Также возможно при анализе социальных сетей. Однако, если в случае опроса происходит взвешивание по социально-демографическим характеристикам, то в исследовании социальных сетей основанием становится тип ресурса, на котором размещается информация. Так, например, учитывается направленность сетей: блоги, микроблоги, форумы и так далее. Учитывая статистику пользования людьми определенных типов сайтов, можно производить взвешивание полученных данных.

5. Шкалирование. Онлайн-анкета представляет собой совокупность различных шкал, позволяющих буквально преобразовать слова в цифры, что необходимо для дальнейшего анализа. При исследовании социальных сетей можно также преобразовать текстовые данные в цифровые. По эмоционально окрашенным сообщениям можно определить степень согласия или несогласия «респондентов» к тем или иным темам, проблемам.

6. Переменные. Совокупность полученных текстов позволяет разбивать их на различные переменные, которые отражают различные аспекты исследуемой темы.

Глава 3. Сетевой анализ как метод изучения виртуального пространства

Анализ социальных сетей как отдельное направление появилось в конце 20 века, основоположниками которого считаются такие ученые как Милгрэм («феномен маленького мира»), Грановеттер («Сила слабых связей», 1973), Фишер, Вельман, Фриман и многие другие. В своих работах они доказали существование определенных закономерностей в сетях взаимодействий людей. Например, в работе Милгрэма, в ходе проведения масштабного исследования, делается вывод о теории «шести рукопожатий». Согласно данной теории, любой человек соединен с другим, незнакомым ему человеком, посредством 6 (в среднем) общих знакомых. Милгрэм произвел эксперимент, в котором попросил 300 респондентов отправить выданные им письма через своих родственников или знакомых. Позднее, в 2003 году, его эксперимент был повторен социологами Колумбийского университета уже при помощи электронной почты. Результаты подтверждали теорию Милгрэма. Следовательно, это позволяет сделать вывод о том, что структура связей между людьми в виртуальном и реальном пространстве повторяется.

На сегодняшний день сетевой анализ высоко востребован и продолжает быстро развиваться. В значительной этому мере способствуют технологические изменения. С одной стороны, возрастающая мощность вычислительной техники позволяет обрабатывать большие массивы данных в короткие сроки, визуализировать полученные данные, высчитывать различные показатели. С другой стороны, высокая доступность персональных компьютеров и различных средств связи, возрастающая популярность различных интернет-сервисов, тематических сайтов позволяет исследователям получить разнообразные данные без составления анкет и обращения к респондентам.

Интернет - это глобальная сеть данных, состоящая из множества подсетей. Как и в реальном мире, это сложная структура связей между акторами. Основание связи в виртуальном пространстве может быть разнообразным и зависит от исследовательских целей. Так, если целью работы является рассмотрение структуры дружеских связей студентов факультета социологии, то связующим элементом будет рассматриваться наличие в «друзьях» студентов этого факультета.

В данной работе, связью считается наличие ссылки на источник новости. Это может быть как отдельный пользователь социальной сети, так и внешний сайт, опубликовавший новость. В таком случае, рассматривается двухуровневый подход к образуемой сети обмена информацией:

· 1-ый уровень - интернет-платформа социальной сети (Twitter, Facebook, Вконтакте)

· 2-ой уровень - внешние источники (сайт, на который сослался пользователь)

Многие новостные сайты предоставляют пользователям возможность быстрого размещения статьи на своей странице, при этом автоматически прикрепляя ссылку на данный ресурс. Таким образом, внешние источники интегрированы в пространство отдельных социальных сетей через таких акторов.

Более того, например, социальная сеть Twitter накладывает ограничение на число символов одного публикуемого сообщения (140 знаков). Следовательно, пользователь не имеет возможности разместить полный текст статьи на своей странице. Однако существует возможность прикрепления ссылки на источник к своему сообщению. Таким образом, пользователь может аргументировать свою позицию (прикрепляя ссылку как доказательство), продемонстрировать свое отношение к обсуждаемой новости, либо же привлечь внимание своих друзей и подписчиков к данной новости.

3.1 Основные метрики, используемые в сетевом анализе

Сетевой анализ позволяет изучать социальные взаимодействия путем выделения структур отношений между индивидом и группой, а также и взаимодействий групп людей. В основе данного подхода лежит математическая теория графов, с помощью которой можно геометрически изобразить структуру исследуемого объекта. Так, например, вершинами графа могут быть отдельные люди, а ребрами - наличие связи между людьми.

Математическая модель графа выглядит следующим образом :

G= (V,E)

При этом, V должно быть непустым множеством вершин/узлов, а E - множество ребер (см. пример графов в Приложении).

Таким образом, можно выделить три составляющих совокупности социальной сети :

1. Акторы сети - индивиды или коллективы, «действующее» звено сети.

2. Социальные связи - определение основания для связи является одной из ключевых задач сетевых исследований, так как это является непосредственной единицей анализа. Это могут быть отношения дружбы, профессиональные, деловые, родственные и так далее.

Ресурсы - материальные и нематериальные, которые могут быть доступны акторам через установление социальных связей.

Диаметр графа (размер сети) - это максимально возможное расстояние между любыми двумя вершинами графа.

Плотность графа показывает насколько сеть близка к полной, то есть, насколько сильно связаны акторы между собой. Полный граф обладает максимально возможным количеством ребер и значение плотности стремится к 1.

Модулярность измеряет насколько хорошо сеть разбивается на отдельные объединения. Допустимые значения варьируются от 0,7 до 0,8. Высокая модулярность обозначает наличие сложных внутренних структур (подсети).

Коэффициент кластеризации показывает насколько плотно связаны вершины вокруг узлов. Высокое значение коэффициента означает, что граф плотно связан вокруг нескольких узлов. Низкий коэффициент кластеризации свидетельствует об относительно равномерном распределении связей среди всех узлов.

Центральность используется для определения положения конкретного узла относительно других узлов сети. Значение меры центральности варьируется от 0 до 1: от отсутствия связей у узла (изолированный узел) до полной связи узла со всеми вершинами графа. Узел, обладающий большой исходящей мощностью указывает на «властность» данного актора в конкретной сети, именно через него

В исследовании структуры распространения информации необходимо особое рассмотрение узлов, с большим количеством связи. Именно такие акторы могут являться «лидерами мнений» и играть ключевую роль в каждой конкретной сети. Для таких целей существует показатели входящей и исходящей мощи узла. Эти метрики предназначены для направленных графов и обозначают число связей направленных к узлу (входящая мощность) или исходящих от узла (исходящая мощность).

ГЛАВА 4. ОБОСНОВАНИЕ ПОНЯТИЯ «ЛОЖНАЯ НОВОСТЬ»

В рамках данного исследования такая задача необходима в силу нескольких причин. Во-первых, для теоретического обоснования использования термина, а, во-вторых, из-за отсутствия научного объяснения такого понятия в целом.

В журналистике используется сочетание «газетная утка» для обозначения обмана, фальсификации данных относительно какого-либо события или персоны. Согласно толковому словарю Даля, это «лживая газетная статья, обман» . Такая «утка» противопоставляется достоверной новости, описывающей реальные события.

Таким образом, можно разделить новости на ложные и реальные:

Ложные новости - это такие новости, которые заведомо преподносят искаженную, непроверенную, фальсифицированную информацию.

Реальные новости - это такие новости, которые передают объективную и достоверную информацию о событии.

Ложные новости не новое явление для средств массовой информации. Хотя среди филологов нет единого мнения о точной дате происхождения термина «газетная утка» (некоторые утверждают, что это конец 17 века, другие - начало 19 века), ясно, что обманные статьи в средствах массовой информации появились задолго до возникновения интернета. Следовательно, существовала и проблема доверия новостям и способам проверки транслируемой информации.

Одним из способов проверки достоверности новости является проверка ее источника. В телевизионных СМИ можно выделить государственные и частные каналы. Первые контролируются государством, которое несет ответственность перед обществом за объективность и достоверность информации.

В печатных СМИ существует разделение на «качественную» и «популярную» прессу: «качественная пресса рассчитана на подготовленного высокообразованного читателя со средним и высоким доходами, а популярная пресса - на массовую аудиторию» . В первом случае, это официально-деловой стиль публикуемых материалов, достоверность источников информации, это аналитические статьи, без использования эмоционально окрашенных высказываний, ненормативной лексики. Именно качественная задает информационный фон в обществе.

Популярная пресса отличается ориентацией на массовую аудиторию, просто изложенным материалом, менее формальным стилем публикаций. Выпускаемые материалы небольшие по объему, содержат множество иллюстраций (для упрощения восприятия), допускается использование оценочных суждений и так далее. В популярной прессе допускается возможность создания ложных новостей (например, в изданиях «желтой прессы»).

В интернете и, в частности, на сайтах различных социальных сетей присутствует огромное множество информационных агентств, групп, изданий. Некоторые из них являются электронной версией печатных газет или даже телевизионных каналов. Например, печатная газета «Известия» имеет электронный сайт газеты (http://izvestia.ru), аккаунт в социальной сети Twitter (https://twitter.com/izvestia_ru), Вконтакте (http://vk.com/izvestia), Facebook (https://www.facebook.com/izvestia.ru), Instagram (http://instagram.com/izvestia_ru) и Google+ (http://instagram.com/izvestia_ru). Публикуемая информация дублируется на перечисленных сайтах и может быть размещена пользователем на его персональной странице в социальной сети.

В интернете доступ к различным новостным изданиям значительно упрощен, нежели в обычной жизни. Так, человек может просмотреть несколько десятков новостных ресурсов в виртуальном пространстве за сравнительно короткое время и, при этом, не выходя из дома и не затрачивая на это денежных средств. Проблема заключается в том, что разнообразие источников информации не означает увеличения ее качества. Разные источники публикуют разную, иногда даже противоречивую информацию. Новости дублируются медиа-агентствами, укорачиваются, искажаются и так далее. Все это значительно усложняет ориентацию в информационных потоках и способствует искаженному восприятию новости.

Как отличить ложную новость от реальной в условиях разнообразных информационных потоков?

1. Опровержение, опубликованное на официальных источниках качественной прессы - это один из наиболее эффективных способов. Официальное опровержение, подтвержденное фактами устраняет неопределенность ложной новости

2. Отсутствие подобной новости на сайтах качественной прессы - данное условие не является достаточным. Новость может иметь региональный характер, либо же произошедшее событие не представляется важным для публикации и освещения на каналах качественной прессы (или телевидения). Более того, в ситуации, когда представители авторитетных источников не могут получить достоверных фактов о какой-либо новости, публикация будет откладываться до выяснения всех обстоятельств.

3. Тематический индекс цитируемости сайта, тИЦ (Яндекс) - это специально разработанная технология поиска компании «Яндекс», которая определяет авторитетность сайта с учетом качественных характеристик (а не только количество ссылок на данный сайт). Из описания на сайте Яндекс: «Наш тематический индекс учитывает количество ссылок на сайт с других сайтов, придавая этим ссылкам разный «вес» (то есть значимость) в зависимости от авторитетности ссылающегося сайта».

Таким образом, чем надежнее источник, тем выше его тИЦ. Например, интернет-версия газеты «Известия» тИЦ равен 22000, это число означает количество внешних ссылок на данный ресурс. Однако данный критерий так же не является достаточным условием. Рассмотрим тематические индексы цитирования на исследуемых новостях.

Сравнительно высоким значение тематического индекса цитирования обладает только один источник (ria.ru), все остальные вне зависимости от типа распространяемой ими новостной информации (реальной или ложной) имеют уровень тИЦ не более 2000.

Следовательно, такой критерий не может быть определяющим при разделении реальных и ложных новостей.

4. Субъективное восприятие сайта - некоторые сайты массовой прессы содержат большое количество всплывающих окон, рекламы сомнительных препаратов, ссылок на различные сайты с нецензурными материалами и так далее.

Из всех перечисленных способов, официальное опровержение является единственным объективным критерием для разделения реальных и ложных новостей. Однако остальные критерии также могут быть полезны для наиболее продуктивной ориентации в виртуальном пространстве.

ГЛАВА 5. ОПИСАНИЕ РАБОТЫ С СИСТЕМОЙ МОНИТОРИНГА СОЦИАЛЬНЫХ СЕТЕЙ В КАЧЕСТВЕ МЕТОДА СБОРА ДАННЫХ

Система мониторинга социальных сетей предоставляет исследователю возможность собрать интересующие его упоминания в социальных сетях по какой-либо тематике за кратчайшие сроки. Достаточно правильным образом составить поисковый запрос и программа соберет базу сообщений за указанный период с заданными условиями поиска. Полученная база данных состоит из всех найденных системой сообщений пользователей, которые размещены в публичном доступе.

Прежде, чем приступить к анализу, необходимо «очистить» базу от нерелевантных сообщений:

· Удаленные сообщения - это те упоминания, которые по каким-либо причинам недоступны, удалены пользователем или модератором.

· Не связанные с темой исследования - система ищет любые совпадения с заданным в поиске словом, следовательно, чем «проще» искомое слово, тем больше будет нерелевантных сообщений.

Для создания релевантного поискового запроса, необходимо соблюсти некоторые условия:

Во-первых, подобрать все возможные и распространенные варианты написания слова, названия. Например, в данном случае, ключевое слово - название бренда. Однако было понятно, что не все пользователи пишут данное название правильно. Более того, даже русифицированный вариант написания этого бренда часто встречается с ошибками, либо сокращениями и так далее. Для того, чтобы собрать наиболее полную базу упоминаний, необходимо учитывать все эти особенности написания искомого слова.

Во-вторых, язык поисковых запросов предполагает наличие определенных правил, с помощью которых можно регулировать поиск сообщений. Так, например, можно задать системе искать только точные совпадения (без склонений), либо же исключить какие-либо слова заранее. Для того, чтобы понять что из вышеперечисленного следует сделать, можно воспользоваться пробным поиском в самой системе, либо же самостоятельно попробовать различные комбинации слов в обычных поисковых системах (Google, Mail, Yandex и так далее).

В-третьих, важно установить дату, с момента которой будут собираться упоминания. Например, в данном случае, были необходимы упоминания с момента начала установки «чемодана». Более ранние сообщения, по понятным причинам, не содержат необходимой информации и в любом случае были бы удалены.

При процедуре «очистки» базы исследователь буквально «знакомится» с данными, примерно понимает соотношение публикаций СМИ и непосредственно пользовательских отзывов. При этом, происходит проставление тональности упоминаний: новостные сообщения СМИ относятся к нейтральным, а пользовательские в зависимости от ситуации. В данном случае, конечно, эмоциональная оценка носит достаточно субъективный характер, особенно в случае с большими и подробными сообщениями, где могут быть все краски.

Среди разработчиков систем мониторинга социальных медиа актуален вопрос совершенствования и внедрения такой функции как автотональность. Это означает, что система «сама» проставляет одну из трех тональностей каждому сообщению, исходя из его содержания. Данная функция значительно облегчила и упростила работу с базой упоминаний, но все еще система не может в большинстве случаев правильно определить эмоциональную окраску сообщения. Особенно в случае с «богатым русским языком», где, казалось бы, «позитивные» слова выражают негативную реакцию человека - ирония и сарказм трудны для машинного распознавания. Более того, раскрепощенные анонимностью и неформализованным характером многих социальных сетей, люди могут выражаться, используя матные слова. Однако даже в этом случае, наличие нецензурного слова еще не означает негативную реакцию человека. В каждом случае исследователю необходимо рассматривать очередное упоминание в контексте данного социального события или процесса.

5.1 Процедура анализа текстов: соотнесение с классическим контент-анализом

В зависимости от целей исследования уже на этапе очищения базы от нерелевантных сообщений исследователь может провести процедуру тегирования (кодирования) сообщений. Сами теги, присваиваемые каждому сообщению, могут быть определены заранее, либо же в процессе работы с этими текстами. Таким образом, исследователь «разбивает» всю совокупность упоминаний по различным тематикам.

Контент-анализ

Основной метод исследования при мониторинге социальных сетей - контент-анализ. При этом, важно помнить, что в полученной базе присутствует 2 рода текстовой информации: публикации СМИ и пользовательские сообщения. Это совершенно два разных понятия, следовательно, при анализе выбранной темы, необходимо разделить эти два потока.

Классический контент-анализ используется при исследовании СМИ, различных интервью и даже для некоторых анкетных вопросов. При этом существует два вида работы с текстами: количественный (подсчет слов) и качественный (поиск взаимосвязей между словами, событиями). Так, например, можно определить взаимосвязь между какими-либо событиями и особенностями их отражения в СМИ, можно проанализировать эмоции человека, связанные с исследуемым объектом, определить лидеров (например, при подсчете количества упоминаний о какой-либо компании, товаре, продукте, человеке) и так далее.

Социальные сети предоставляют нам огромные потоки текстовой информации ежедневно. Собрав все воедино, исследователь располагает большим массивом мнений, при этом, как со стороны СМИ, так и со стороны пользователей. Конечно, следует помнить, что если публикации СМИ по структуре текста едины и достаточно формализованы, то пользовательские сообщения значительно короче, не формализованы и, как правило, содержат мгновенную реакцию на происходящее (а не развернутое, аргументированное мнение). Таким образом, на первом этапе анализа видится логичным расщепить базу упоминаний по этим двум потокам: публикации СМИ и пользовательские отзывы.

Еще одна особенность анализа при мониторинге социальных сетей - дублирование сообщений. Это означает, что одна и та же новость (как правило, это касается публикаций СМИ) неоднократно повторяется на различных страницах социальных сетей. Это происходит за счет того, что множество людей ссылается на исходный источник информации, либо же одну и ту же ссылку специально распространяют как можно больше в различных группах и так далее. Более того, многие социальные сети предоставляют своим пользователям возможность «репоста», то есть, каждый может опубликовать у себя на странице сообщение исходное другого пользователя, либо даже разместить ссылку на сайт публикации. Таким образом, одна новость умножается в несколько сотен раз, что с одной стороны затрудняет процедуру анализа, но с другой - говорит о популярности новости и ее широком охвате. В данном случае, исследователю необходимо решить, как поступить с дублируемой информацией, что это может дать последующему анализу всей темы.

В классическом контент-анализе исследователь анализирует выборку единичных текстов. То есть, например, если необходимо проанализировать статьи определенной тематики ежемесячного журнала за год, то база будет состоять из 12 статей, каждая из которых будет отдельно проанализирована. В ситуации мониторинга пространства социальных сетей необходимо учитывать ее специфику. Помимо уже упомянутого дублирования информации, необходимо отметить и «временные» особенности публикации материалов. Благодаря современным технологическим возможностям и необходимости мгновенного реагирования на событие, новостные сайты публикуют множество новостей по одной теме несколько раз в день (в зависимости от характера события). Буквально любое изменение, либо новый открывшийся факт тут же попадает на страницы виртуальных газет. Сами статьи, как правило, короткие и отражают основные события, без какого-либо детального анализа. Конечно, есть и подробные публикации, мнения специалистов, интервью, но для таких статей необходимо больше времени, что значит, их публикация происходит через некоторое время после события. Большая же доля новостных публикаций состоит из таких мгновенных сводок с места событий.

5.2 Построение выборки и сбор данных

Выборка состоит из корпуса текстов, размещенных в социальной сети Twitter с апреля по май 2014 года, относительно исследуемых информационных поводов. Совокупный объем собранных упоминаний равен 2749 сообщений.

Первый этап: отбор кейсов.

В первую очередь были отобраны ложные новости, опубликованные в апреле-мае 2014 года в социальной сети Twitter.

Критерием для отбора таких информационных поводов стало наличие официального опровержения. Данный критерий был выбран для обеспечения надежности результатов. Реальные новости были отобраны так, чтобы обеспечить максимально возможное единое основание для сравнения. Например, в выборку вошли 2 ложные новости политической направленности, следовательно, были выбраны 2 новости относительно политических событий. При этом, учитывалось также и количество сообщений. Конечно, невозможно было найти такую реальную новость, упоминания по которой были бы равны числу упоминаний по ложной новости. Поэтому реальные новости отбирались с числом упоминаний максимально приближенных к количеству сообщений о ложной новости.

Второй этап: вычленение единицы анализа, сбор текстов.

Данный этап непосредственно связан с работой в системе мониторинга социальных сетей. В исследовании использовалось программное обеспечение компании Вобот . Необходимо было собрать отдельно 6 массивов данных с текстами по каждой исследуемой новости (реальной и ложной).

Перед непосредственным сбором данных необходимо задать поисковый запрос, являющийся единицей счета. Приведем пример, вычленения единицей анализа и процесса подготовки к сбору данных, основанный на материалах, использованных в данном исследовании.

Реальная новость, заголовок: «Министр обороны: Италия может направить миротворцев на Украину».

Так как разные новостные агентства могут немного видоизменять заголовок, то поиск точного совпадения слов с исходным заголовком неэффективен. Необходимо обеспечить попадание максимально большего количества сообщений, относящихся к данной новости. Следовательно, заголовок разделялся на ключевые слова:

Министр обороны: Италия может направить миротворцев на Украину

Таким образом, поисковый запрос выглядел так: Италия & миротворцы & Украина. Символ «&» обозначает поиск совпадений внутри всего текста сообщения в любом порядке, независимо от склонения слов и регистра букв.

Более того, поиск осуществлялся в заданный период времени (апрель-май 2014 года), что исключало попадание неактуальных новостей. Так же из выборки были исключены упоминания, не относящиеся к исследуемой новости.

ГЛАВА 6. ВЫЯВЛЕНИЕ РАЗЛИЧИЙ В СТРУКТУРАХ РЕАЛЬНЫХ И ЛОЖНЫХ НОВОСТЕЙ В СОЦИАЛЬНЫХ СЕТЯХ

Выше приведена таблица макропоказателей для каждой сети. В данном случае нельзя говорить об отношении направленности существующих различий (больше/меньше), так как графы не одинаковы по своим размерам. Однако при последовательном рассмотрении каждой сети по указанным параметрам можно составить обобщенное представление о структуре распространения информации в социальной сети Twitter в целом (в рамках данных кейсов).

Полученные результаты не позволяют объединять и выводить единую структуру для каждого вида новости (реальной и ложной). Все кейсы можно описать как совокупность низко связных между собой акторов (плотность во всех случаях не превышает 0,1).

Все разобранные сети являются слабо связанными. В моделях отсутствуют эквивалентность вершин, все направления связи односторонние. Это объясняется особенностями рассматриваемых информационных обменов между акторами. Основой для связи являлось размещение пользователем сообщения, содержащего ссылку на новость или на другого пользователя, разместившего соответствующее сообщение на своей странице. Основанием для установление взаимной связи могло бы быть наличие комментариев к публикации данного актора. Однако, проследить такие взаимосвязи достаточно трудно (в рамках данного исследования).

Во всех случаях коэффициент кластеризации равен нулю, что свидетельствует об отсутствии сильно связанных вершин относительно узлов сети. Акторы, участвующие в распространении новостей в большинстве случаев (в рамках разобранных кейсов) связаны только с источником информации, но не между собой.

Макропоказатели по каждой кейсу указывают на диверсифицированность сетей в целом. Акторы слабо связаны друг с другом, отсутствуют кластеры. То есть, в рассмотренных структурах нельзя выделить отдельные группировки акторов. Распределение информации происходит точечно.

Следовательно, среди разобранных кейсов невозможно выделить относительно повторяющейся, устойчивой структуры, каждая из них является уникальным случаем. Однако различия в данных сетях можно проследить на уровне акторов.

ГЛАВА 7. ОПРЕДЕЛЕНИЕ ХАРАКТЕРИСТИКИ «ЛИДЕРОВ МНЕНИЙ» В СТРУКТУРЕ РАСПРОСТРАНЕНИЯ НОВОСТЕЙ

В каждом из разобранных кейсов одну из главных ролей в распространении информации играли искусственно созданные аккаунты, имитирующие деятельность реального пользователя социальной сети.

Данный феномен виртуального пространства имеет специальный термин - астротурфинг (astroturfing) - это искусственное формирование обсуждений, путем распространения информации, публикации комментариев по какой-либо теме на различных ресурсах с помощью специально созданных аккаунтов, имитирующих деятельность реального человека .

Такие искусственные аккаунты можно разделить на два типа: «боты» и «фейки»

1. «Боты» - специально написанная программа генерирует большое количество учетных записей (аккаунтов) без полного заполнения профилей. Деятельность таких акторов сети сводится к постоянной публикации новостей, без добавления текста, эмоциональных суждений, зачастую, без прикрепления ссылки на источник.

Персональная страница «ботов» заполнена новостями различных тематик из разнообразных источников.

Можно выделить основные маркеры бот-аккаунтов (Socialbakers):

· Смещенное соотношение числа читаемых (following) пользователей актором и читающих (followers) его. Закономерность можно описать соотношением 50:1. Это означает, что бот-аккаунт имеет 50 подписок на различных пользователей, в то время как на него подписан лишь 1.

· Более 30% твиттов содержат спам-фразы. Это могут быть фразы рекламы сайтов, отдельные слова «купить», «продать». Также возможны словосочетания «читаювзаимно», «взаимныйфолловинг», направленные на привлечение большего числа возможных подписчиков и, следовательно, увеличения подписок самого бот-аккаунта.

Цель - расширение списка подписчиков для большего охвата публикуемы сообщений

· Одна и та же формулировка сообщения повторяется с разных аккаунтов. То есть, происходит перепечатывание одного и того же сообщения, что отражается в большом количестве одинаковых твоттов, но опубликованных разными аккаунтами.

Цель - создание эффекта популярности новости.

· Более 90% публикуемых на странице сообщений - ретвиты других пользователей

· Более 90% публикуемых сообщений содержат ссылки на внешние сайты. При этом, следует дополнить данный маркер. Отличительная особенность таких спам-сообщений то, что ссылки во многих случаях перенаправляют пользователя на сайты, не связанные с информацией, содержащейся в сообщении. Например, бот-аккаунт публикует сообщение, в котором содержится заголовок новости и прикрепляет к нему ссылку. При этом, переход по ссылке перенаправляет читателя на сайт с интернет-магазином, на котором нет ни единого упоминания о заявленной в сообщении новости. Более того, такие ссылки могут направлять не только на сайты с рекламой и интернет-магазинами, а содержать в себе вирусы или нецензурный контент.

Цель - привлечь внимание к определенным источникам.

· Записи бот-аккаунтов не имеют ретвитов. В большинстве случаев, несмотря на мнимую высокую активность аккаунта, сообщения не передаются другими пользователями

· Отсутствие изображения, фотографии, какой-либо уточняющей личной информации (пол, возраст, город проживания, интересы) в профиле.

«Фейки» - это такие акторы сети, которые ведут активную деятельность в виртуальном пространстве, постоянно ведут свою страницу, имеют большое число подписчиков, участвуют в обсуждениях и так далее. Однако это также лишь имитация пользовательской активности. Ведение таких аккаунтов в социальных сетях - оплачиваемая работа. Следовательно, существуют некоторые персоны/компании/агентства, которые платят за подобную деятельность и контролируют ее выполнение, определяют содержание, частоту публикации сообщений/комментариев. Такие фейковые аккаунты сложно обнаружить, особенно неопытному пользователю.

7.1 Анализ двух кейсов: подробное рассмотрение ключевых характеристик сети на примере политических новостей

Кейс 1. Реальная новость: «Министр обороны: Италия может направить миротворцев на Украину»

Описательная статистика

Общее количество упоминаний по всем социальным сетям составило 717 сообщений за неделю (с 4 по 11 мая). Первоисточником новости является информационное агентство «РИА Новости». Данное медиа-агентство позиционируется как источник качественных аналитических материалов о ситуациях, происходящих во всех сферах российского и зарубежного общества . Статьи публикуются профессиональными журналистами, используется деловой стиль речи, отсутствуют оценочные суждения. Целью работы медиа-агенства является: «Оперативно, взвешенно и объективно освещать события в мире, рассказывать международной аудитории о российском взгляде на ситуацию». Таким образом, данный источник возможно отнести к качественной прессе.

Динамика нисходящая, 7 мая произошло увеличение сообщений на 9 упоминаний по сравнению с предыдущим днем, однако по сравнению с общим массивом данных и дальнейшим спадом числа упоминаний такой прирост незначителен.

Наибольшее число упоминаний было оставлено пользователями социальной сети Twitter. Доля этого ресурса составила приблизительно 50% от остальных социальных сетей.

Динамика количества упоминаний по 3-м основным ресурсам (Twitter, Вконтакте, Facebook) аналогична распределению по всем социальным сетям за недельный период.

При этом значение охвата аудитории равно 602973. Этот показатель означает суммарное количество подписчиков всех акторов данной сети. То есть, данное значение показывает число пользователей, которые потенциально могут прочитать эту новость. Однако данный показатель не является абсолютно точным.

Во-первых, такое значение по охвату актуально только на момент сбора данных. Охват может расширяться по мере дальнейшего распространения новости. В данном случае, прирост нового числа сообщений составлял менее 10 единиц уже в середине исследуемого периода (8.05). Следовательно, можно сделать допущение о том, что впоследствии этот показатель останется приблизительно таким же .

Во-вторых, показатель суммирует число подписчиков каждого актора, но не учитывает возможные совпадения. Так, например, два пользователя, состоящие в подписчиках друг у друга, независимо друг от друга размещают на своих страницах данную новость. Допустим, что у каждого из них по 10 подписчиков, следовательно, суммарный охват будет равен: 20 - 2 = 18. Система мониторинга социальных сетей не имеет автоматического доступа к учетным записям пользователей, что ограничивает возможность получения более точного значения. Однако суммарный охват можно использовать для составления первого представления о величине масштаба распространяющейся новости.

Новость о миротворцах Италии имеет суммарный охват равный приблизительно 600 тысяч пользователей. Следовательно, около полумиллиона пользователей сети Twitter могли увидеть данную новость.

При этом, несмотря на широкий охват, новость практически не нашла отклика среди пользователей, распространявших эту новость.

Макропоказатели сети.

Сеть децентрализована, показатель плотности равен 0,2%, что является свидетельством отсутствия связи между акторами сети. Также, отсутствуют сильно связные компоненты, сеть невозможно разделить на кластеры. Более того, в большом количестве присутствуют изолированные вершины и диады.

В данном случае в сети присутствуют четыре мощных узла, которые являются аккаунтами: РИА-Новости, RT_Russian, Lenta_super и электронная газета «Ведомости». При этом, максимальной мощностью обладает узел RT_Russian. Данный аккаунт принадлежит сайту телевизионного канала «Russia Today» (www.rt.com). Это международный телевизионный канал, высоко интегрированный в пространство социальных медиа. Канал предоставляет альтернативный взгляд на события, происходящие в мире, освещает то, что большинство популярных меда предпочитает «скрывать». Сайт канала имеет огромную популярность, которая характеризуется более полумиллионом зрителей в более чем ста странах мира .

Большая часть вершин (более 450) не обладает степенью промежуточности. В основном это изолированные вершины или диады, которые являются «бот»-аккаунтами. Доля акторов, не связанных с наиболее мощными акторами сети составила 24%.

Эти же акторы обладают и максимальным влиянием в сети за счет большого количества связей с акторами сети, а также зачет их социального капитала.

Диаметр сети равен 2, что означает максимальное возможное расстояние между двумя акторами равно двум «шагам». Если не учитывать изолированные вершины, то можно говорить о компактности сети и достаточно быстрой скорости распространения информации.

Вывод: структура данной сети состоит из 4-х ключевых акторов, обладающих высоким социальным капиталом (по большой, в рамках данного случая, мощности узла и числу подписчиков). Новость быстро распространяется от источников к реципиентам. Между акторами практически не устанавливается взаимная связь. Возможно, это объясняется тем, что пользователи сети Twitter, при желании разместить новость на своей странице, обращаются к «лидерам мнений», а не ссылаются на аккаунты своих «друзей».

Кейс 2. Ложная новость: «Минобороны РФ - Небольшой сбой курса российской ракеты РС-24 ЯРС. Пентагон - Это провокация, ПВО США не смогли взять цель»

Описательная статистика

Общее количество упоминаний за неделю - 530 сообщений. Первоисточник новости - информационно-аналитическая служба «Русская линия». Информации об агентстве практически нет, однако можно проследить явную религиозную направленность: в перечисленных авторах статей большое количество священнослужителей, при описании других сотрудников подчеркивается их национальность (русские) и религиозные взгляды (православие), некоторые также имеют опыт работы с религиозными изданиями. Сайт предлагает большое количество материала на различные тематики: религия, политика, общество и «разное» . Также присутствует реклама религиозного содержания, ссылки на «похожие» по направлению сайты.

За рассматриваемый период (с 28.04 по 04.05) ложная новость распространялась преимущественно социальной сети Twitter (93%). Динамика сообщений за неделю нисходящая.

Суммарный охват для социальной сети Твиттер равен приблизительно 23 тысячи пользователей. Данный показатель значительно меньше, чем в случае с реальной новостью (где такой же показатель был равен полумиллиону). Конечно, рассматриваемые кейсы не одинаковы по объему упоминаний и количеству акторов, однако такое различие объясняется не только количественными характеристиками этих сетей, но и качественными различиями в акторах.

Сетевые показатели

Граф ориентированный. Количество узлов - 528, количество ребер - 529.

Рассмотрим показатели промежуточности (betweenness), которые показывают как часто узел появляется в кратчайшем пути между всеми узлами сети.

Данных акторов можно назвать «проводниками» сети. Именно через них происходит трансляция новости остальным акторам. Более того, эти акторы так же являются «лидерами мнений» сети, обладая наибольшей мощностью узлов (по сравнению со всеми узлами сети):

Следовательно, в данном кейсе, «проводники» одновременно являются «лидерами мнений». При этом, сайт-источник ложной новости является ядром сети, из которого и происходит дальнейшее распределение информации. При этом, большая часть связей - «простые» бот-аккаунты, которые разместили ссылку на своей странице. Процент изолированных вершин равен 5%.


Подобные документы

  • Анализ методов и средств выявления мнений пользователей социальных сетей. Обзор средств мониторинга и анализа, подбор необходимого программного обеспечения и технических средств. Разработка архитектуры базы данных, реализация программных модулей.

    дипломная работа [3,7 M], добавлен 19.01.2017

  • Разработка системы мониторинга пользовательских запросов в крупной социальной сети - ООО "В Контакте". Анализ маркетингового положения компании в сфере социальных сетей. Характеристика потребительского сегмента. Техническая поддержка социальных сетей.

    дипломная работа [3,0 M], добавлен 25.10.2015

  • История развития и классификация социальных сетей. Характеристика наиболее популярных социальных сетей. Сети Рунета: ВКонтакте, Одноклассники, Мой круг, Мой мир (на www.mail.ru), RuSpace. Социальная сеть Facebook как лидер среди социальных сетей.

    реферат [4,0 M], добавлен 23.06.2012

  • Изучение понятия социальных сетей. Классификация социальных сетей по тематике и по форме общения их аудитории: общетематические, специализированные, глобальные, мультимедийные, блоги, микроблоги. Facebook - одна из самых популярных социальных сетей.

    презентация [405,6 K], добавлен 05.06.2013

  • Типы социальных сетей, их влияние на современного человека. Тенденции и перспективы развития социальных сетей. Внедрение в повседневную жизнь мобильных интернет-технологий. Анализ социальной сети на примере VK.com - крупнейшей в Рунете социальной сети.

    курсовая работа [48,0 K], добавлен 07.08.2013

  • Сущность и значение мониторинга и анализа локальных сетей как контроля работоспособности. Классификация средств мониторинга и анализа, сбор первичных данных о работе сети: анализаторы протоколов и сетей. Протокол SNMP: отличия, безопасность, недостатки.

    контрольная работа [474,8 K], добавлен 07.12.2010

  • Понятие и общая характеристика социальных сетей, принципы их функционирования, достоинства и недостатки использования. Формирование функциональных требований к информационному пространству научных исследований. Направления исследований социальных сетей.

    дипломная работа [222,7 K], добавлен 18.07.2014

  • Классификация компьютерных сетей. Назначение компьютерной сети. Основные виды вычислительных сетей. Локальная и глобальная вычислительные сети. Способы построения сетей. Одноранговые сети. Проводные и беспроводные каналы. Протоколы передачи данных.

    курсовая работа [36,0 K], добавлен 18.10.2008

  • Анализ виртуального пространства и реальности. Особенности информационной культуры субъектов виртуального пространства. Телевидение, кабинные симуляторы, системы "расширенной" реальности и телеприсутствия. Настольные ВР-системы, социальные сети.

    презентация [6,0 M], добавлен 15.11.2017

  • Обзор существующих решений на основе открытых данных. Технологии обработки данных и методы их визуализации. Социальные сети для извлечения данных. Ограничение географической локации. Выбор набора и формат хранения открытых данных, архитектура системы.

    курсовая работа [129,5 K], добавлен 09.06.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.