Анализ социально-экономических аспектов пользователей социальной сети "Вконтакте"

Основные сведения о сети "Вконтакте", проектирование выборки, статистический анализ её данных. Расчёт бесповторной выборки методом случайного отбора. Практическое значение показателей средней взвешенной, моды, медианы, среднего квадратического отклонения.

Рубрика Экономика и экономическая теория
Вид курсовая работа
Язык русский
Дата добавления 29.04.2016
Размер файла 835,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Санкт-Петербургский филиал

Федеральное государственное автономное образовательное учреждение высшего профессионального образования

"Национальный исследовательский университет

"Высшая школа экономики"

Санкт-Петербургская школа экономики и менеджмента

Департамент прикладной математики и бизнес - информатики
КУРСОВАЯ РАБОТА

на тему: "Анализ социально-экономических аспектов пользователей социальной сети «Вконтакте»"

Санкт-Петербург 2015 г.

Оглавление

выборка отклонение сеть

Введение

Глава 1. Теоретическая часть

1.1 Определения базовых понятий

1.2 Основные сведения о сети «Вконтакте»

1.3 Проектирование выборки

1.4 Статистический анализ данных выборки

Глава 2. Практическая часть

2.1. Формирование и закачка выборки

2.2. Статистический анализ выборок

2.3. Статистический анализ конечной выборки

Заключение

Список литературы

Приложения

ВВЕДЕНИЕ

К нашему времени интернет стал приобретать характер пространства социальных сетей, распространяющих влияние на всё большее количество людей, хотя ранее во всемирной паутине ключевую роль играли сайты. Представить свою жизнь без социальных сетей сегодня, не могут не только молодое поколение, но и люди в возрасте. Обмен информацией, построение бизнеса, различные исследования - это и еще очень многое позволяют нам социальные сети.

Проходя процесс регистрации, пользователь указывает базовую информацию о себе, с помощью этого появляется возможность анализа какой-либо интересующей совокупности. Например, анализ пользователей из определённого муниципального образования по возрасту, для выявления работоспособного населения, или анализ всех пользователей одной социальной сети по половому признаку для расчётов, нужных интернет-предпринимателям, занимающихся, положим, товарами для женщин.

Точно так же, возможно провести социально-экономические исследования для более глобальных масштабов, как субъектов государства, так и страны в целом. Интерес, проявленный именно к Российской Федерации, обоснован тем, что исследование проводится на территории данной страны, а так же величиной территории, объединяющей самые различные национальности, религии, климатические пояса, и, следовательно, людей, не схожих друг с другом интересами, образами жизни и географической близостью.

По данным масштабного опроса Московского агентства PRT, в котором принимали участие 10 000 человек из разных городов-миллионников в возрасте от 18 до 40 лет с условием, что они зарегистрированы хотя бы в одной Российской социальной сети, более ѕ пользователей называют себя их активными пользователями, то есть теми, кто посещает свой профиль не реже 1 раза в день. Почти все респонденты имеют аккаунт «Вконтакте» - социальной сети, ставшей самой популярной в нашей стране не только по результатам вышеуказанного опроса, но и по множеству других социально-статистических исследований. Исходя из этого, данному ресурсу посвящается значительное количество времени, а так же он содержит больше, чем остальные данных о Россиянах. Поэтому любопытно исследовать и получить информацию о давно знакомой нам и практически всем гражданам Российской Федерации социальной сети - « Вконтакте».

Актуальность работы обусловлена широким распространением социальных сетей на современное общество и их влиянием на все сферы общественной жизни, в первую очередь, экономическую, а «Вконтакте» является ярким представителем популярных социальных сетей в нашей стране.

Проявлением новизны и уникальности является изучение социально-экономических аспектов пользователей на конкретный момент написания работы из-за постоянного роста численности зарегистрировавшихся в социальной сети, в связи с этим же сложно найти «свежий» статистический анализ пользователей «Вконтакте» в Интернете.

Целью исследования является применение выборочного метода к изучению основных социально-экономических аспектов многомилионной аудитории социальной сети для дальнейшего использования полученных результатов в экономической сфере общества. Для достижения поставленной цели необходимо выполнение следующих задач:

1.Вычисление необходимого количества пользователей для анализа

2.Получение данных о нужном количестве

3.Обработка данных по указанным людьми аспектам

4 Выведение результатов и отображение их на всей совокупности

Объектом исследования являются социально- экономические характеристики пользователя, такие как пол, дата рождения, ВУЗ, страна, город и т.д., в то время как предметом исследования является определённая группа пользователей, полученная случайным образом.

По своей структуре работа разделена на 2 главы: теоретическую и практическую. В первой будут объяснены основные понятия, касающиеся данной темы, представлена основная информация об изучаемой социальной сети, описан метод формирования выборки, приведена теория для самостоятельных расчетов показателей и расчетов с помощью программ. Вторая глава включает в себя расчет оптимального числа пользователей для исследования, получение и анализ данных, отражение результатов на полную совокупность.

Основными источниками для написания курсовой работы стали «Практикум по прикладной статистике» С. Г. Валеевой и В. Н. Клячкина а так же статья, опубликованная университетов «КГМУ» «Определение размера выборки при планировании научного исследования» и ряд других иностранных статей о социальных сетях.

Глава 1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

1.1 Определения базовых понятий

С точки зрения социологии, социальная сеть представляет собой структуру объединяющую узлы, и связи между ними. Данная структура именуется графом, узлы являются социальными объектами, а именно людьми и организациями, связи же - это социальные взаимоотношения.

Социальное пространство включает в себя множество связей, которые, объединяясь, образуют огромную и сложную сеть. Во времена отсутствия телекоммуникаций, это были обыкновенные человеческие взаимоотношения, позволяющие участникам объединяться, обсуждая общие идеи, интересы, правила, взаимодействуя более эффективно, достигая общие цели. Теория шести рукопожатий Стэнли Милгрэма является примером того, как работают социальные связи, в ней американский психолог доказывает, что любые два человека на планете связаны через цепочку общих знакомых, в среднем состоящую из 5 человек.

С развитием технологий появляются новые возможности создания сетей. Примерами таковых могут послужить: телефонная связь, сетевая торговля, всемирная сеть - Интернет. Последняя является наиболее интересной тем, что на Интернет базе создаётся множество площадок-сайтов, онлайн-сервисов, позволяющих зарегистрированным пользователям создавать социальные связи, обмениваться информацией, вступать в сообщества или создавать их самим, и еще большое разнообразие возможностей. Такие сайты и называются социальными сетями. Люди разных религий, национальностей, социальных групп, возрастов и профессий объединяются с целью общения, не прибегая при этом к дополнительным инструментам, таким как электронная почта или мессенджер.

Пользователем является лицо, создавшее профиль в социальной сети методом регистрации. В процессе ее прохождения человек указывает обязательную и дополнительную информацию о себе. В разных социальных сетях данные о пользователе, которые нужно или возможно указать, неодинаковы, рассмотрим конкретную социальную сеть - «Вконтакте».

1.2 Основные сведения о сети «Вконтакте»

Рассмотрим процесс регистрации. Данный ресурс, при переходе на страницу регистрации, предлагает будущему пользователю ввести имя, фамилию, а затем номер мобильного телефона, к которому будет привязана страница для того, чтобы: была возможность восстановления пароля, предотвратить спам - рассылки и взлом страницы. Затем на номер телефона приходит смс с кодом подтверждения, который должен быть введен в специальном поле сайта «Вконтакте». После завершения этого шага регистрирующемуся требуется придумать пароль от своей страницы. Далее социальная сеть даёт возможность поиска школьных друзей, друзей по ВУЗу, а так же друзей, зарегистрированных в других социальных сетях. Для этого вводятся: города школы и вуза, их названия, год окончания, класс, факультет и кафедра. Для поиска друзей из других сетей необходимо всего лишь кликнуть на какую - либо из представленных на экране. С этого момента человек является пользователем данной сети.

Зарегистрированному пользователю присваивается порядковый id номер, который отображается в ссылке на созданную страницу. Эту страницу можно редактировать, добавляя новые данные, такие как: девичья фамилия, пол, семейное положение, дата рождения, родной город, языки, родственники, контактные данные, интересы, образование, карьера, служба, жизненная позиция. Все вышеперечисленные аспекты заполняются пользователем по желанию. Так же, владелец страницы сам устанавливает, какую информацию могут наблюдать все пользователи, друзья и друзья друзей.

Одной из наших задач является статистический анализ данных, указанных пользователями сайта, но рассматривать всех зарегистрированных пользователей достаточно трудоёмкий процесс, ведь на время написания данной работы численность пользователей «Вконтакте» составляет примерно 294,5 млн. человек. Также, исходя из собственных наблюдений, каждую минуту в каталоге пользователей Вконтакте [7] прибавляется в среднем около 250 новых зарегистрированных пользователей. Поэтому одним из вариантов исследования данных может послужить анализ некоторой части из всех пользователей, которая может с той или иной точностью отразить ситуацию для всех пользователей социальной сети.

1.3 Проектирование выборки

Все пользователи исследуемой социальной сети являются генеральной совокупностью, определяемой, как вероятностное пространство элементарных событий с заданными: полем событий , вероятностями , случайной величиной . Последняя имеет определённую функцию распределения и ей соответствующие числовые характеристики.

Последовательность из n независимых одинаково распределённых случайных величин называется выборкой объёма n, если распределение каждой случайной величины совпадает с распределением исследуемой случайной величины . То есть результат, проведённых n раз независимых наблюдений из всей генеральной совокупности за случайной величиной , и называется выборкой.

Не менее важной задачей является выявление характеристик генеральной совокупности с помощью результатов исследования выборки, для этого в ней должны быть правильно отражены пропорции генеральной совокупности с целью получения достоверных результатов. Если по окончании анализа выборки, полученные выводы могут применяться ко всему объёму данных, то выборка считается репрезентативной. Добиться репрезентативности можно тогда, когда выборка случайна, это не значит, что отбор производится стихийно или произвольно, это означает, что абсолютно все элементы генеральной совокупности имеют равные шансы попасть в выборку.

Для расчёта объёма выборки существует различные формулы, применяемые в зависимости от того как производится выбор, является ли он повторным или бесповторным. В нашем случае подходит формула для расчёта бесповторной выборки, полученной методом случайного отбора [3]:

, где

-критерий Стьюдента или иначе коэффициент доверия;

-размер генеральной совокупности;

-среднеквадратическое стандартное отклонение (-дисперсия);

-ошибка выборки.

Однако для расчёта критерия Стьюдента мы должны знать, какой имеется вид распределения, но он не известен. В связи с этим делается предположение о том, что выделение id номеров пользователям происходит линейным образом и зависит от того, каким по счету зарегистрировался пользователь в социальной сети, то есть присвоенный номер зависит только от времени и больше ни от каких других параметров. Чем больше номер, тем меньше времени прошло с момента регистрации пользователя, и наоборот, чем номер меньше, тем большее количество времени человек является пользователем социальной сети «Вконтакте». Исходя из этого, удобнее разбить весь диапазон id номеров на части, впоследствии это поможет с технической точки зрения закачать данные.

Последовательность упорядоченных элементов выборки , где называется вариационным рядом. В случае если выборка слишком велика по объёму, как в нашем случае, её обработка вызывает сложности, поэтому её элементы можно объединить в группы, разбивая интервал на k равных интервалов. В разных исследованиях количество интервалов принимается разными способами. В некоторых случаях это количество можно выбрать любым, часто его принимают от 8 до 20 в зависимости от объёма выборки, так же оно вычисляется по эмпирической формуле Стерджесса [2]

, где

- количество элементов выборки.

Точно так же возможно разбить на интервалы всю генеральную совокупность, предварительно построив из неё вариационный ряд. Определив количество интервалов, и получив, сколько элементов попадёт в каждый из них необходимо решить, какое конечное количество исследуемых пользователей из интервала нужно взять для закачки их данных. С одной стороны, чтобы точнее отразить характеристики генеральной совокупности нужно выбирать максимальное количество пользователей из интервала, с другой же стороны важно минимизировать это количество по техническим причинам, а конкретнее по причинам сложности закачки больших объёмов данных и их обработки.

Из всех возможных для получения данных о пользователе, наиболее удобным для расчетов является половой признак в силу своей бинарной структуры. С помощью него не сложно определить конечное количество пользователей для исследования. Прежде всего, произвольно выбирается какое - либо количество пользователей из любого интервала, например 100.000. Производится закачка данных выбранного количества, после чего определяется отношение количества лиц мужского пола к количеству лиц женского, или наоборот, эта величина для интервала является константой, так как назначение id пользователей «Вконтакте» по видимому является только функцией времени. Затем определяется меньшее количество пользователей из этого же интервала, например 50.000, производится закачка и расчет того же соотношения лиц мужского и женского полов. Если данные отношения для 50 и 100 тысяч одинаковы или имеют незначительную разницу, или вариация данного соотношения порядка 10 %, то более рациональным является взять 50 тысяч для дальнейшего анализа. Если отношения существенно отличаются, то необходимо либо уменьшить количество пользователей не до 50 тысяч, а, предположим до 75, и снова посмотреть разницу в отношениях полов, либо полностью увеличить первоначальное количество выбранных пользователей, взяв при этом не 100 тысяч, а 200. При этом, добившись схожего соотношения, выбираем наименьшее и более удобное для обработки количество пользователей. Это количество можно считать конечным для скачивания и исследования только в том случае, если так, как выбранный, были проверены все интервалы генеральной совокупности и выявилось, что для того же объёма выборок, что и в первом интервале, допустим выборок из 100 и 75 тысяч пользователей, отношение лиц мужского пола к лицам женского принципиально не отличаются. Отношения во втором интервале могут кардинально отличаться от отношений в первом, но в одном и том же интервале они не должны иметь существенной разницы. Проверив все интервалы, можно определить оптимальный размер выборки для репрезентативности и простоты обработки данных. Для получения более точных результатов, после расчёта оптимальной выборки из интервала скачаем полученное количество, например 50 тысяч, из нескольких интервалов и проведём анализ для каждой выборки интервала, а затем суммарный анализ для всех скаченных пользователей. Хочется заметить, что признаком, для проверки соотношений может служить не только пол, но любые данные, указанные пользователем, а точнее те, которые может отобразить программа закачивания данных из социальной сети. В практической части будет более подробно описан процесс получения данных из сети «Вконтакте» и описана используемая программа для закачивания.

1.4 Статистический анализ данных выборки

Будем обозначать - выборку из n-ого интервала. Для закачивания выборки возьмём 3 интервала и произведем закачку данных оптимального количества пользователей. Получим 3 разные выборки, но одинаковые по размеру. Для каждой из них первым этапом анализа будет общее статистическое описание, в котором будут кратко рассмотрены и рассчитаны все социально-экономические аспекты, которые может отражать программа для скачивания. В него войдут: расчёт удельного веса лиц мужского и женского полов от всей выборки, пользователей указавших год рождения, страну, город, место получения образования, факультет, форму образования и статус в образовании. Так же возможно рассчитать количество тех, кто указал и год рождения, и университет, для дальнейшего анализа, россиян и россиянок, указавших страну и город, россиян из городов-миллионников, россиян и россиянок, указавших университет. Для расчётов данных будут использоваться программное обеспечение «Microsoft Excel» , в котором есть специальные функции фильтрования или сортировки, облегчающие расчеты.

Вторым этапом исследования является анализ аудитории «Вконтакте» по возрасту, для этого с помощью функции «СЧЁТЗ» вычисляется количество указавших дату рождения. Затем эти пользователи сортируются от самого молодого до самого пожилого. Весь диапазон возрастов разбивается на интервалы, после чего вычисляется, сколько человек вошло в тот или иной интервал. Таким образом, можно узнать, среди какого возраста наиболее популярен данный интернет ресурс, вычислив долю попавших в данный интервал от всех, указавших свой возраст, вычислить такие статистические показатели, как средние взвешенные, квадратическое отклонение, средний возраст пользователя «Вконтакте», а так же моду и медиану. Средняя взвешенная показывает среднее значение возраста в выборке и рассчитывается по следующей формуле:

,где

середина интервала, а частость [1].

Мода показывает наиболее часто встречающееся значение возраста у единиц данной совокупности и вычисляется по формуле:

,где

- начало модального интервала (интервала, имеющего наибольшую частость);

- ширина интервала, находящаяся, как разность между его концом и началом;

- частота, соответствующая модальному интервалу;

- предмодальная частота;

- послемодальная частота.

Медиана делит весь возрастной диапазон на две части, половина меньше медианы, а половина больше. Медианным является первый интервал, накопленная частота которого превышает 50 % общей суммы частот. Медиана вычисляется по формуле:

, где

- начало медианного интервала;

-частота, соответствующая медианному интервалу;

-накопленная частота предмедианного интервала.

Среднее квадратическое отклонение показывает разброс значений относительно среднего и вычисляется по формуле:

,где

- значения изучаемого признака, в нашем случае возраста;

- средняя арифметическая величина;

- частота.

Следующим этапом рассматриваются пользователи из России и рассчитывается, какая доля из указавших город является жителем города-миллионника, а какая живёт в небольших городах. Так же возможно можно узнать, жители какого города-миллионника России больше всех «сидят» в социальной сети.

Не менее важным социально-экономическим аспектом является образование, поэтому важно знать, какая часть россиян указали ВУЗ и факультет, после чего выявить самые часто встречающиеся в выборке вузы и специальности и рассчитать их доли от всех россиян, указавших ВУЗ и факультет. Так же рассмотрим, сколько пользователей из всей выборки указали форму обучения, и какая часть из них обучалась или обучается заочно, на дневной форме или на вечерней. Изучим, сколько из указавших образовательный статус являются выпускниками или студентами.

Предпоследним этапом исследования выборок будет являться выявление наиболее встречающихся стран путём сортировки стран по названию и расчёт доли жителей стран из выборки от всех, указавших свою страну.

В заключение анализа трёх выборок из разных интервалов, объединим их в одну большую выборку и проведём суммарный анализ, результаты которого должны отражать характеристику социально-экономических аспектов всех пользователей социальной сети «Вконтакте».

Глава 2. ПРАКТИЧЕСКАЯ ЧАСТЬ

2.1 Формирование и закачка выборки

На момент написания данной работы численность пользователей социальной сети «Вконтакте» составляла 294,5 миллиона. Возьмём это число за генеральную совокупность. Вариационным рядом данной генеральной совокупности будет список всех пользователей от id-номера 1 до id-номера 294500000, то есть от самого первого зарегистрированного пользователя и до пользователя, зарегистрировавшегося последним на данный момент времени. В нашем случае генеральная совокупность велика по объёму, поэтому будет удобнее разбить ее на интервалы по формуле Стерджесса:

Округлим полученное количество интервалов до 29. Если разделить размер генеральной совокупности на это число, то результат получиться не целым. По причине того, что в наши конечные интервалы будут входить люди, нужно добиться целого числа в интервале. Поэтому, удобнее всего будет разбить вариационный ряд на 25 интервалов, в каждый из которых попадёт по 11 780 000 пользователей. Произвольным образом берем 100 и 50 тысяч человек, чтоб проверить, не различается ли между выборками соотношение лиц женского пола к лицам мужского пола более чем на 10 %.

Вручную данной проверки сделать невозможно, поэтому мы воспользуемся специальной программой для закачки данных из социальной сети «Вконтакте». Одной из многочисленных функций программы «Social Network-Vkontakte» является случайная закачка пользователей, для этого нужно подключиться к любому из аккаунтов социальной сети, введя логин и пароль от данного аккаунта, нажать на кнопку «access parameters» для выведения списка стран и городов с соответствующими им номерами и затем перейти на вкладку «random user sampling» (см. Приложение 1, рис.1). На этой вкладке необходимо ввести первый id из нужного интервала для скачивания и последний id. Так же нужно ввести необходимое количество пользователей для закачки и папку, в которую программа сохранит закаченные данные. Результатом закачивания является таблица (см. Приложение 1, рис. 2), в первом столбце написан id номер пользователя, во втором и третьем - имя и фамилия соответственно, в четвертом - имя, которое отражается в ссылке на адресной строке, у многих оно совпадает с id номером. В пятом столбце - пол, который указан в форме цифры, 1-женский пол, 2-мужской. В шестом - дата рождения, в седьмом и восьмом - город и страна, а в девятом и десятом столбцах университет, указанный пользователем и факультет. Затем идут столбцы с формой обучения (очная/заочная/дистанционная), со статусом обучения и ссылкой на фотографию. Программа предлагает сохранить данную таблицу в «Microsoft Excel» - программе для работы с электронными таблицами.

Для проектирования выборки нас интересует половой признак, поэтому необходимо закачать с помощью данной программы 100 и 50 тысяч человек из какого- либо интервала, возьмём для начала первый. Внесем первый id из нужного диапазона -1 и последний - 11 780 000 и укажем нужное количество id- 100. После скачивания сохраним таблицу в Excel и посчитаем соотношение с помощью статистической функции «СЧЕТЕСЛИ». СЧЁТЕСЛИ(E:E;1)/СЧЁТЕСЛИ(E:E;2), где E- столбец с указанным полом. Для 100 тысяч это отношение получилось 0,927. Затем скачиваем 50 тысяч из того же интервала и точно так же считаем отношение, которое получается примерно 0,919 . Попробуем теперь еще уменьшить выборку до 20 тысяч и закачать её. Отношение лиц женского пола к лицам мужского получается около 0,895, что не даёт разницы более чем на 10% со 100-тысячной выборкой. Возможно было бы еще сокращать размер выборки, но было решено не делать её меньше 20 тысяч.

Теперь наша задача проверить, во всех ли интервалах разница между отношениями женщин пола к мужчинам в выборках из 100 и 20 тысяч не превышает 10% . Для этого было проведено закачивание 100 и 20-тысячных выборок из всех 25 интервалов и рассчитаны отношения полов. Максимальная разница в отношении полов 100 и 20-тысячной выборки была в седьмом интервале и составляла около 8%. Возьмём 3 любых интервала, например, 5,15и 25, и проведём из каждого закачку данных 20-и тысяч пользователей , проанализируем данные 20-тысячных выборок из каждого интервала, после чего объединим их в общую и получим 60-тысячную выборку, которая будет являться наиболее репрезентативной в связи с тем, что данные взяты из 3 разных интервалов, разбросанных по всей совокупности, то есть не являющимися соседними. В итоге получим 3 таблицы из 20 тысяч пользователей для выборок из интервалов и одну общую таблицу из 60 тысяч пользователей.

2.2 Статистический анализ выборок

Результатом общего статистического описания выборки является таблица, изображенная на рис. 2.1. Все удалённые пользователи имеют в столбце с полом значение «0», поэтому с помощью функции «СЧЁТЕСЛИ(E:E;0)», где Е - столбец с указанием пола, можно рассчитать, что число удалённых пользователей 225, что составило около 1,13% от всей выборки. Эти пользователи не имеют никакой информации о себе, поэтому они были удалены, и в дальнейшем за 100% рассматривалась выборка из 19775 человек.

Из новой выборки было рассчитано количество мужчин и женщин с помощью той же функции «СЧЁТЕСЛИ», но были установлены условия «1» и «2» для женщин и мужчин соответственно. В таблице можно наблюдать, что в выборке большую долю занимают мужчины.

Число указавших год рождения было посчитано с помощью функции «СЧЁТЗ(F:F)», где F-столбец с указанным возрастом. Отфильтровав выборку так, чтоб остались только указавшие возраст, сортируем сначала столбец «University» в алфавитном порядке и смотрим, какое количество из указавших возраст, указали ВУЗ, затем сортируем столбец «Faculty» и смотрим количество, указавших факультет. То же самое проделываем со столбцами «Edu Form» и «Edu Status», чтоб узнать количество указавших возраст одновременно с формой образования и статусом. Видно, что немногие указывают ВУЗ, но еще меньше указывают факультет, не говоря уже о форме и статусе образования.

Число элементов выборки

20000

100%

Удалённые страницы пользователей

225

1,125%

Новый размер выборки

19775

100%

Женщины

9216

46,60%

Мужчины

10559

53,40%

Указавшие год рождения

5146

26,02%

Из них указавшие университет

999

19,41%

Факультет

640

12,44%

Форму обучения

128

2,49%

Статус обучения

103

2,00%

Указавшие страну

13112

66,31%

Жители РФ

7747

59,08%

Женщины

3750

48,41%

Мужчины

3997

51,59%

Указавшие город

12714

64,29%

Жители РФ, указавшие город

7492

58,93%

Из городов миллионников

3208

42,82%

Из остальных городов

4284

57,18%

Указавшие место получения образования

2953

14,93%

Из городов миллионников России

761

25,77%

Из остальных городов России

731

24,75%

Из них женщины из РФ

711

24,08%

Из них мужчины из РФ

781

26,45%

Из них указавшие факультет

1899

64,31%

Из них указавшие форму обучения

317

10,73%

Из них указавшие статус обучения

267

9,04%

Рис. 2. 1 Общее описание выборки

Число пользователей, указавших страну, вычисляется аналогично с помощью функции «СЧЕТЗ(H:H)», большинство пользователей в выборке указали свою страну, из них больше половины - россияне. Скачивания данных производились в более «старых» версиях программы «Social Network-Vkontakte», поэтому, вместо названия стран и городов в столбцах, указан присвоенный им id номер. Соответствие номеров названиям можно наблюдать во вкладке «access parameters» программы для закачки.(см. Приложение 1, рис.3) России присвоен номер «1», поэтому количество россиян можно посчитать с помощью функции «СЧЕТЕСЛИ(H:H;1)». Затем нужно сортировать столбец со страной от меньшего значения к большему и с помощью функций «СЧЁТЕСЛИ(E2:E7748;1)» и «СЧЁТЕСЛИ(E2:E7748;2)», где E-столбец с полом, а диапазон [2;7748] - россияне, вычислить количество мужчин и женщин из России. Мужчин оказывается снова больше чем женщин, примерно на 4%.

Количество пользователей, указавший свой город вычисляется по аналогии с тем, как вычислялось количество, указавших страну, так же вычислялось и количество россиян, указавших свой город. Указавших город оказывается меньше, чем указавших страну, но не значительно. Количество россиян из крупных городов можно вычислить, установив фильтр на столбец со страной и выбрав в нём условие «1» -Россия, а затем установить фильтр на столбец с городами и отметить в нём номера городов, соответствующие городам-миллионникам России, посмотрев их в таблице программы для скачивания данных. В выборке явно преобладают пользователи из городов, численность которых меньше миллиона.

Всего из выборки только около 15% указали место образования, число указавших ВУЗ находится с помощью той же функции «СЧЁТЗ», точно так же находятся и число, указавших факультет, форму и статус обучения. Около 64% указавших вуз, указывают и свой факультет, но только 9-11% указывают форму и статус образования. Рассчитываем россиянок указавших образование, для этого фильтруем столбец ВУЗов так, чтоб в выборка состояла только из указавших его название. Затем в функции «СЧЕТЕСЛИМН» выбираем диапазон условия 1 столбец с полом (E:E) и само условие «1»- женщины, а диапазон условия 2 столбец со страной (H:H) и условие «1»- Россия. Точно так же считаем количество россиян-мужчин, указавших образование. По итогам расчётов, мужчин, указавших вуз в России на 2% больше чем женщин. Россиян, указавших ВУЗ из городов - миллионников больше, чем россиян из более мелких городов, но разница незначительна и составляет около 1 %. Число указавших ВУЗ из самых крупных городов России можно вычислить, сначала отфильтровав только тех, кто указал образование и потом в фильтре для городов пометить те их номера, которые соответствуют городам-миллионникам России, предварительно посмотрев их в таблице программы скачивания. Размер полученной выборки и есть искомое число. Установив фильтр на столбец со странами и указав в нём только «1»- Россия, а затем, убрав пометки с городов-миллионников, можно вычислить и указавших место образования из остальных городов России.

Перейдём к возрастному анализу выборки. Для этого сортируем выборку по возрасту от меньшего к большему. Весь диапазон годов рождения варьируется от 1902 до 2001 года рождения. На практике понятно, что зарегистрированных пользователей старше 80 лет не существует, поэтому мы сужаем диапазон и устанавливаем нижнюю возрастную границу -79 лет, то есть 1935 год. Затем разбиваем на интервалы этот диапазон и считаем, какое количество пользователей в него попало. Встает вопрос, сколько лет пользователю, например, 2001 года на данный момент. Примем так, что если он родился до 7.03,то ему 14 лет, если после, то ему еще 13. Вычисляем количество пользователей, попавших, допустим, в интервал [10;14] лет с помощью функции «СЧЁТЕСЛИМН(!F:F; "<=7.03.2005";!F:F ">7.03.2000"). Распределение выборки по возрастам показано на рис. 2.2. По данной гистограмме наблюдается обратная зависимость возраста и количества человек. Чем больше возраст, тем меньше человек этого возраста попали в выборку. Пользователи младше 10 лет, вероятно не указывают свой возраст, а до 15 лет указывают, но не многие.

Рис. 2. 2 Гистограмма распределения выборки по возрастам

Так же был по формулам были рассчитаны: средняя взвешенная (средний возраст), модальный и медианный возраста, среднее квадратическое отклонение от среднего значение. Средним выборочным возрастом является возраст 28 лет, модальным, а значит наиболее часто встречающимся, стал возрас-18 лет. Медианным возрастом стали 25 лет. Среднее квадратическое отклонение составило 12 лет.

Теперь проверим, какое количество пользователей из выборки являются жителями больших городов, и в каком городе-миллионнике в социальной сети «Вконтакте» «сидят» больше. По данным Росстата [8] на 1 января 2014 года, 15 городов Российской Федерации являются миллионерами. Вычислить, сколько пользователей из выборки являются жителем какого- либо из них можно отфильтровав выборку по городам, установив в фильтре номер города, соответствующий искомому. После того, как стало известно количество пользователей в выборке из каждого города-милионника, разделим каждое значение на общее число россиян, указавших свой город, таким образом, узнаем долю пользователей в выборке, например из Красноярска, от всех Россиян, указавших город. Точно так же это число делится на население всего города, чтоб получить долю пользователей выборки из города-милионника от населения города. Сравнив последние показатели узнаем, в каком из городов социальная сеть пользуется наибольшей популярностью. Результаты вышеуказанных расчетов приведены в таблице на рис. 2.3.

Города

На 1 января 2014 года

Количество пользователей из города

Доля пользователей города от указавших город россиян

Доля пользователей города от населения города

г. Москва

12 108 257

1269

16,94%

0,0105%

г. Санкт-Петербург

5 131 942

456

6,09%

0,0089%

г. Новосибирск

1 547 910

136

1,82%

0,0088%

г. Екатеринбург

1 412 346

158

2,11%

0,0112%

г. Нижний Новгород

1 263 873

105

1,40%

0,0083%

г. Казань

1 190 850

124

1,66%

0,0104%

г. Самара

1 172 348

108

1,44%

0,0092%

г. Челябинск

1 169 432

104

1,39%

0,0089%

г. Омск

1 166 092

106

1,41%

0,0091%

г. Ростов-на-Дону

1 109 835

119

1,59%

0,0107%

г. Уфа

1 096 702

114

1,52%

0,0104%

г. Красноярск

1 035 528

93

1,24%

0,0090%

г. Пермь

1 026 477

128

1,71%

0,0125%

г. Волгоград

1 017 985

130

1,74%

0,0128%

г. Воронеж

1 014 610

58

0,77%

0,0057%

Всего из городов -миллионников России

3208

42,82%

0,0099%

Всего из небольших городов России

4284

57,18%

Указали города в России

7492

100,00%

Рис. 2. 3 Статистика пользователей городов-миллионеров России

Можно наблюдать, что отношение числа пользователей в выборке к общему населению из таких городов, как Волгоград, Пермь и Екатеринбург больше, чем в остальных случаях. Следовательно, для данной выборки в этих городах сайт «Вконтакте» наиболее популярен.

Так же немаловажно распределение пользователей выборки по странам. Сортируем выборку по столбцу «Country» от минимального значения к максимальному. Методом наблюдения определяем самые часто встречающиеся страны в выборке и рассчитываем, какое количество пользователей указало ту или иную страну с помощью функции «СЧЁТЕСЛИ(H:H;i)», где i- номер той или иной часто встречающейся страны. Затем сопоставляем номера стран с их названиями из таблицы в программе для скачивания. Полученные данные отражены на гистограмме на рис. 2.4.

Рис. 2. 4 Гистограмма распределения пользователей по странам

Разделив количество людей в выборке из определённой страны на всех, указавших страну, находим удельный вес, предположим, грузин в выборке. Легко заметить, что в выборке преобладают жители России, на втором месте украинцы, затем жители Казахстана, Белоруссии, Азербайджана и США. Преобладание в выборке россиян обусловлено тем, что социальная сеть «Вконтакте» создана в России и начинала набирать популярность именно в этой стране, и лишь со временем начала распространяться в близлежащих государствах.

Теперь рассмотрим такой социально экономический аспект, как образование. Установим для начала фильтр на столбец со страной и выберем условием фильтрования «1», id номер, соответствующий России. Отсортируем столбец для указания места образования в алфавитном порядке и методом тех же наблюдений определим самые часто встречающиеся. В нашем случае их вышло 22. Самостоятельно считаем количество россиян, обучающихся или обучавшихся в том или ином вузе. Тоже самое делаем и со столбцом «Faculty» , после чего выявляются 28 самых популярных в выборке специальностей. Рассчитав количество жителей России, указавших каждый из этих 28 факультетов, получаем список факультетов от самого часто встречающегося к менее встречающемуся, но так же распространённого факультета. На рис. 2.5 и рис. 2.6 можно наблюдать оформленные в таблицу наблюдения. Самым популярным ВУЗом в выборке стал Московский Государственный Университет, с разрывом почти в 5 раз по количеству человек из выборки отстают Санкт-Петербургский государственный университет Национальный технический университет Украины (НТУУ), следующей по популярности является Российская Академия народного хозяйства и государственной службы при правительстве России.

Больше всех в выборке оказалось экономистов, в 2 раза менее популярным стал юридический факультет, затем идут инженерно строительный факультет и факультет государственного/муниципального управления, после чего следуют медицинские и учётно-финансовые специальности.

Рис. 2. 5 Статистика популярных ВУЗов выборки

ВУЗ

Количество пользователей

В % от жителей РФ, указавших ВУЗ

ВУЗ

Количество пользователей

В % от жителей РФ, указавших ВУЗ

БГТУ «Военмех»

17

1,14%

НУФВСУ (бывш.КГИФК)

10

0,67%

БГУ

17

1,14%

РАНХиГС при Президенте РФ

23

1,54%

ДВФУ (бывш.ДВГУ)

15

1,01%

РЭУ им. Г. В. Плеханова

9

0,60%

КГАВТ им. Конашевича-Сагайдачного

10

0,67%

СВФУ им. М. К. Аммосова

8

0,54%

КубГАУ

8

0,54%

СГА

17

1,14%

ЛНУ им. Ивана Франко

15

1,01%

СПбГУ

34

2,28%

МГУ

156

10,46%

СПбГЭУ (ранее ФИНЭК, ИНЖЭКОН)

9

0,60%

НГТУ (НЭТИ)

10

0,67%

СПбПУ (Политех)

7

0,47%

НГУ (бывш.ДГИ им. Артёма)

9

0,60%

УрФУ (ранее УрГУ и УГТУ-УПИ)

10

0,67%

НИУ ВШЭ

8

0,54%

УрФУ (ранее УрГУ и УГТУ-УПИ)

12

0,80%

НТУУ «КПИ»

32

2,14%

ЮКГУ им. М. Ауезова

8

0,54%

Факультет

Количество Пользователей

В % от жителей РФ, указавших Факультет

Факультет

Количество Пользователей

В % от жителей РФ, указавших Факультет

Экономический

198

20,69%

Иностранных языков

15

1,57%

Юридический

96

10,03%

Педагогический

15

1,57%

Инженерно/ Архитектурно-строительный

57

5,96%

Биоинженерии и биоинформатики

15

1,57%

ГМУ

54

5,64%

Механический

15

1,57%

Медицинский

42

4,39%

Физической культуры

15

1,57%

Учетно-финансовый

40

4,18%

Филологический

14

1,46%

Бизнеса

34

3,55%

Гуманитарный

13

1,36%

Физико-математический

31

3,24%

Химико-технологический

10

1,04%

Биологический

22

2,30%

Журналистики

9

0,94%

Менеджмента

21

2,19%

Стоматологический

9

0,94%

Исторический

19

1,99%

Машиностроения

8

0,84%

Технологический

18

1,88%

Международных отношений

8

0,84%

Психологии

16

1,67%

Географический

7

0,73%

Электро-энергетический

16

1,67%

Геологический

6

0,63%

Рис. 2. 6 Список факультетов по популярности

Вернемся от нашей страны ко всей совокупности лиц, указавших образование. Некоторые из них так же указывали форму обучения. Бывает три разных формы: заочная, дневная и вечерняя. Посмотрим, как распределились указавшие эту форму пользователи, так же рассмотрим, какая доля от указавших статус обучения является выпускниками-бакалаврами, магистрами и специалистами, выявив сколько из них мужчин и женщин, какая доля еще студенты, абитуриенты, аспиранты, кандидаты наук и доктора философии. С помощью функции «СЧЁТЕСЛИ(K:K;full-time)» вычислим сколько из указавших образование учатся или учились на дневной форме, так же рассчитаем количество , указавших заочную и вечернюю формы. Далее, чтоб рассчитать людей с каждым из статусов образования сортируем колонку «edu status» в алфавитном порядке и самостоятельно посчитаем, сколько человек является представителями каждого из статусов.

Результаты расчетов оформим в таблицу на рис. 2.7,a и 2.7,б. Из всех форму образования указало 317 пользователей из них около 70 % студенты очной формы. Указавших статус оказалось 267, из них примерно одинаковое количество выпускников и студентов. Преобладают выпускники- специалисты, в связи с тем, что современная система образования с разделением университетами программы на бакалавриат и магистратуру существует относительно недавно. Из них всего 30% мужчин, а остальные женщины. Примерно равное количество от всех студентов занимают будущие специалисты и бакалавры, около 50 % , почти не насчитывается будущих магистров. Около 5 % от указавших статус занимают абитуриенты, так же, как и доктора философии. И только 1% занимают аспиранты и доктора наук. Анализ и производится аналогично. Результаты исследования данных выборок представлены в Приложении 2. Сравнив полученные данные можно наблюдать то, что в пользователи указывали гораздо больше информации о себе, чем в и в , в то время, как в нет удалённых пользователей и все 20 тысяч рассматриваются за 100%, но указанных данных гораздо меньше, чем в двух других выборках. В последней не все указывают пол, так как относительно недавно рассматриваемая социальная сеть сделала данное поле для информации необязательным для заполнения. Проанализировав все три выборки, объединим их в одну общую для того, чтобы провести суммарный анализ, результаты которого уже смогут наиболее точно отразить социально- экономические характеристики всей генеральной совокупности.

Distance learning

Full-time

Part-time

88

215

14

27,76%

67,82%

4,42%

a

Alumna / Alumnus

Applicant

Postgraduate Student

Student

Candidate of Sciences

PhD (Doctor of Philosophy)

Bachelor's

Master's

Specialist

Bachelor's

Master's

Specialist

17

20

80

15

4

57

4

54

2

14

м

ж

м

ж

м

ж

6

11

12

8

24

56

b)

Рис. 2. 7 Распределение пользователей по форме и статусу обучения

2.3 Статистический анализ конечной выборки

Число элементов выборки должно было составить 60 тысяч, но из-за удалённых пользователями страниц составило примерно на 7,1% меньше. Из новой, рассматриваемой за 100% выборки в 55733 пользователя, доля мужчин по-прежнему больше доли женщин на 8-8,2%. Число указавших год рождения составило около 23,5%. Количество указавших год рождения одновременно с высшим учебным заведением, факультетом, формой и статусом обучения можно наблюдать в таблице на рис 2.8, на котором так же описана вся общая характеристика выборки. Большинство пользователей указывают страну, из них больше половины - россияне. В выборке из жителей России, как и во всех предыдущих анализах, преобладают мужчины. Точно такая же ситуация и с указанием пользователями городов. Около 60% дают о нём информацию, 58,9% из них - жители российских городов. При этом, удельный вес россиян из городов, численностью менее 1 миллиона на 11% больше удельного веса жителей городов-миллионников России. Около 12% всех пользователей указали ВУЗ, 8%- факультет 3-4% форму и статус обучения. Незначительно отличие можно заметить между количеством россиян с образованием из крупных городов и россиян, указавших ВУЗ из более мелких. Так же можно наблюдать небольшую разницу между удельными весами «образованных» женщин, проживающих в РФ и таких же мужчин.

Число элементов выборки

60000

100%

Удалённые страницы пользователей

4267

7,112%

Новый размер выборки

55733

100%

Женщины

25130

45,09%

Мужчины

29627

53,16%

Указавшие год рождения

13125

23,55%

Из них указавшие университет

1984

15,12%

Факультет

1332

10,15%

Форму обучения

649

4,94%

Статус обучения

505

3,85%

Указавшие страну

35661

63,99%

Жители РФ

21006

58,90%

Женщины

10116

48,16%

Мужчины

1088

5,18%

Указавшие город

32496

58,31%

Жители РФ, указавшие город

19150

58,93%

Из городов миллионников

8430

44,02%

Из остальных городов

10720

55,98%

Указавшие место получения образования

6949

12,47%

Из городов миллионников России

1944

27,98%

Из остальных городов России

1771

25,49%

Из них женщины из РФ

1725

24,82%

Из них мужчины из РФ

1980

28,49%

Из них указавшие факультет

4532

65,22%

Из них указавшие форму обучения

2380

34,25%

Из них указавшие статус обучения

2135

30,72%

Рис. 2. 8 Общее описание конечной выборки

Распределение выборки по возрастам отражено в гистограмме на рис.2.9.

Примерно одинаковое количество пользователей попали в возрастные интервалы от 15 до 19 и от 20 до 24 лет. Затем наблюдается обратная зависимость возраста и количества пользователей. Чем больше возраст, тем меньшее количество пользователей этого возраста попадает в выборку. В интервале [10;14] лет не многие указывают свой настоящий возраст или не указывают его вообще. Средним выборочным возрастом является возраст - 27 лет, самым часто-встречающимся по выборке является возраст- 20 лет, медианным возрастом стало 24 года, 11 лет - среднее квадратическое отклонение от среднего.

Рис. 2. 9 Гистограмма распределения пользователей по возрасту

Из городов-миллионеров, наиболее часто встречающимся в выборке стала Москва, после нее идет Санкт-Петербург а затем Казань и Ростов-на-Дону. Важно заметить, что отношение населения городов и количества пользователей из данных городов, попавших в выборку примерно одинаковое. Более подробный анализ представлен в таблице на рис. 2.10

Доля пользователей города от всего населения города показывает, как популярна социальная сеть в том или ином миллионнике. По результатам анализа заметно, что больше всех «сидят» в данной социальной сети жители Волгограда и Казана, после них Ростова-на-Дону и Екатеринбурга. Менее всего сайт популярен в Воронеже и Нижнем Новгороде.

Города

На 1 января 2014 года

Количество пользователей из города

Доля пользователей города от указавших город россиян

Доля пользователей города от населения города

г. Москва

12 108 257

3224

16,84%

0,0266%

г. Санкт-Петербург

5 131 942

1292

6,75%

0,0252%

г. Новосибирск

1 547 910

368

1,92%

0,0238%

г. Екатеринбург

1 412 346

404

2,11%

0,0286%

г. Нижний Новгород

1 263 873

267

1,39%

0,0211%

г. Казань

1 190 850

375

1,96%

0,0315%

г. Самара

1 172 348

292

1,52%

0,0249%

г. Челябинск

1 169 432

275

1,44%

0,0235%

г. Омск

1 166 092

280

1,46%

0,0240%

г. Ростов-на-Дону

1 109 835

314

1,64%

0,0283%

г. Уфа

1 096 702

292

1,52%

0,0266%

г. Красноярск

1 035 528

256

1,34%

0,0247%

г. Пермь

1 026 477

268

1,40%

0,0261%

г. Волгоград

1 017 985

343

1,79%

0,0337%

г. Воронеж

1 014 610

180

0,94%

0,0177%

Всего из городов -милионников России

8430

44,02%

0,0260%

Всего из небольших городов России

10720

55,98%

Указали города в россии

19150

100,00%

Рис. 2. 10 Статистика пользователей городов-миллионников России

Распределить пользователей удалось и по странам. Самые часто встречающиеся страны в выборке отражены на гистограмме на рис. 2.11. Российская аудитория составляет больше половины от всех указавших страны, после чего идут украинцы, белорусы и жители Казахстана.

По результатам статистического анализа данной выборки можно так же выявить самые популярные высшие учебные заведения среди российских пользователей Вконтакте. Самыми часто встречающимися являются приведённые в таблице на рис. 2.12 и рис. 2.13. Из них самый популярный Московский и Санкт-Петербургский государственные университеты. В этой же таблице показаны распространённые специальности среди россиян. Не сложно заметить, что экономический и юридический факультеты занимают первое место, после них так же популярны факультеты менеджмента и государственного/муниципального управления.

Рис. 2. 11 Гистограмма распределения пользователей по странам

ВУЗ

Количество пользователей

В % от жителей РФ, указавших ВУЗ

ВУЗ

Количество пользователей

В % от жителей РФ, указавших ВУЗ

БГТУ «Военмех»

48

1,29%

НУФВСУ (бывш.КГИФК)

16

0,43%

БГУ

33

0,89%

РАНХиГС при Президенте РФ

54

1,45%

ДВФУ (бывш.ДВГУ)

26

0,70%

РЭУ им. Г. В. Плеханова

18

0,48%

КГАВТ им. Конашевича-Сагайдачного

22

0,59%

СВФУ им. М. К. Аммосова

22

0,59%

КубГАУ

28

0,75%

СГА

49

1,32%

ЛНУ им. Ивана Франко

30

0,81%

СПбГУ

89

2,40%

МГУ

403

10,85%

СПбГЭУ (ранее ФИНЭК, ИНЖЭКОН)

19

0,51%

НГТУ (НЭТИ)

23

0,62%

СПбПУ (Политех)

40

1,08%

НГУ (бывш.ДГИ им. Артёма)

15

0,40%

УрФУ (ранее УрГУ и УГТУ-УПИ)

17

0,46%

НИУ ВШЭ

24

0,65%

УрФУ (ранее УрГУ и УГТУ-УПИ)

36

0,97%

НТУУ «КПИ»

92

2,48%

ЮКГУ им. М. Ауезова

14

0,38%

Рис. 2. 12 Статистика популярных ВУЗов выборки

Факультет

Количество Пользователей

В % от жителей РФ, указавших Факультет

Факультет

Количество Пользователей

В % от жителей РФ, указавших Факультет

Экономический

480

22,38%

Иностранных языков

59

2,75%

Юридический

234

10,91%

Педагогический

36

1,68%

Инженерно/ Архитектурно-строительный

123

5,73%

Биоинженерии и биоинформатики

23

1,07%

ГМУ

133

6,20%

Механический

46

2,14%

Медицинский

97

4,52%

Физической культуры

46

2,14%

Учетно-финансовый

90

4,20%

Филологический

36

1,68%

Бизнеса

89

4,15%

Гуманитарный

32

1,49%

Физико-математический

79

3,68%

Химико-технологический

20

0,93%

Биологический

48

2,24%

Журналистики

32

1,49%

Менеджмента

133

6,20%

Стоматологический

22

1,03%

Исторический

50

2,33%

Машиностроения

33

1,54%

Технологический

37

1,72%

Международных отношений

40

1,86%

Психологии

50

2,33%

Географический

15

0,70%

Электро-энергетический

48

2,24%

Геологический

13

0,61%

Рис. 2. 13 Список факультетов по популярности

Рассмотрим таблицы на рис. 2.14,a и рис. 2.14,б которые отображают удельный вес пользователей дневного, вечернего и заочного отделений от всех указавших форму обучения. Больше всего насчитывается выпускников или студентов дневного отделения. Так же 2135 человека указали статус обучения. Из них около 62% выпускников и 33% студентов. Из них больше всех студентов специалитета, так же, как и выпускников. Совпадает количество абитуриентов и аспирантов. Выпускницы женского пола преобладают над выпускниками.

Distance learning

Full-time

Part-time

718

1452

210

30,17%

61,01%

8,82%

a)

Alumna / Alumnus

Applicant

Postgraduate Student

Student

Candidate of Sciences

PhD (Doctor of Philosophy)

Bachelor's

Master's

Specialist

Bachelor's

Master's

Specialist

173

124

1025

23

23

244

73

398

15

37

1,08%

1,08%

11,43%

3,42%

18,64%

0,70%

1,73%

м

Ж

м

ж

м

ж

79

94

83

41

374

651

8,10%

5,81%

48,01%

b)

Рис. 2. 14 Распределение пользователей по форме и статусу обучения

ЗАКЛЮЧЕНИЕ

Как было рассчитано ранее, размер последней рассмотренной общей выборки является оптимальным для отображения характеристик генеральной совокупности. Исходя из этого, выводы, сделанные в процессе её анализа, подходят так же для совокупности всех пользователей социальной сети «Вконтакте». С помощью выборочного метода исследования мы смогли рассмотреть весь нужный диапазон с наименьшими временными затратами и сделать основные выводы о группе людей, посвящающих своё время самой распространённой на сегодняшний день в России социальной сети.

Можно говорить о том, что мужчин зарегистрировано на 8% больше, чем женщин. Около 60 % пользователей - Россияне, остальные в большинстве являются жителями близлежащих стран, в список часто встречающихся стран вошли так же США и Испания. Доля жителей городов, численностью меньше 1 млн. на 11% больше доли живущих в городах миллионерах, из этих городов сайт наиболее распространён в Волгограде и Казани.

Процент людей, указавших ВУЗ из крупных городов России, незначительно больше, чем из мелких. Не многие указывают своё образование, но из числа указавших, большинство уже выпускники, обучавшиеся на дневном отделении. Около 30% обучаются или обучались заочно. Около 10% пользователей выпускники или студенты Московского государственного университета , 2,4 % СПБГУ, 0,6% НИУ ВШЭ. Самыми популярными среди пользователей сети являются такие факультеты, как экономический, юридический и факультет менеджмента. Самой крупной аудиторией «Вконтакте» является молодежь в возрасте от 15 до 29 лет. Лица старшего возраста зарегистрированы в социальной сети в меньшем количестве.


Подобные документы

  • Схема собственно-случайной бесповторной выборки. Определение средней ошибки выборки для среднего значения, среднего квадратического отклонения и предельной ошибки выборки. Определение эмпирического распределения. Расчетное значение критерия Пирсона.

    контрольная работа [96,3 K], добавлен 05.03.2012

  • Вычисление средней арифметической заработных плат, моды и медианы, размаха вариации, дисперсии и среднего квадратичного отклонения. Статистический анализ товарооборота, его динамики и показателей. Оценка стоимости продукции, средней цены, удельного веса.

    контрольная работа [152,5 K], добавлен 08.01.2013

  • Сущность понятий выборки и выборочного наблюдения, основные виды и категории отбора. Определение объема и численности выборки. Практическое применение статистического анализа выборочного наблюдения. Расчет ошибок выборочной доли и выборочной средней.

    курсовая работа [132,8 K], добавлен 17.02.2015

  • Источники данных для статистического анализа регионального рынка жилья. Статистический ряд распределения предприятий по признаку цены за 1 кв.м. Значение моды и медианы полученного ряда. Ошибка выборки средней цены за кв.м. на первичном рынке жилья.

    контрольная работа [1,2 M], добавлен 13.01.2012

  • Статистический анализ производства и себестоимости. Использование формул средних величин в решении задач, вычисление дисперсии, среднего квадратичного отклонения, коэффициента вариации, предельной ошибки выборки. Практическое применение индексного метода.

    контрольная работа [59,3 K], добавлен 26.06.2009

  • Группировка единиц наблюдения статистической совокупности по факторному признаку. Расчет средних значений, моды и медианы, показателей вариации. Направление связи между факторной и результативной переменными. Определение вероятности ошибки выборки.

    контрольная работа [634,5 K], добавлен 19.05.2014

  • Основные фонды: понятие и состав. Виды оценки основных фондов и их баланс. Показатели движения, состояния и использования основных фондов. Расчет показателей для вычисления средней арифметической взвешенной и среднего квадратического отклонения.

    дипломная работа [705,0 K], добавлен 15.02.2009

  • Роль статистики в анализе социально-экономических явлений и процессов. Расчёт среднего линейного отклонения, дисперсии, среднеквадратического отклонения, линейного коэффициента вариации. Графическое и практическое определения структурных средних.

    контрольная работа [438,8 K], добавлен 06.11.2010

  • Построение группировки магазинов математическим путем с использованием формулы Стерджесса по размеру товарооборота. Нахождение моды и медианы распределения работников по уровню заработной платы. Определение дисперсии, среднего квадратического отклонения.

    контрольная работа [44,8 K], добавлен 09.07.2013

  • Ранжирование исходных данных по размеру основных фондов и их группировка с равновеликими интервалами, расчет равновеликого интервала. Вычисление среднего процента, дисперсии и среднего квадратического отклонения выборочной доли, коэффициента вариации.

    контрольная работа [241,8 K], добавлен 15.11.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.