Анализ пpизнака №74 "частота покупок книг не по каталогу клуба" в "Клубе Семейного Досуга": влияние "удовлетворенности ценой"; "проживания в городе" и "образования"

Анализ одномерного и двумерного распределения исследуемого признака с переменными "образование" и "проживание в городе". Расчет критерия хи-квадрата и коэффициентов корреляции. Оценка значимости различий исследуемого признака в разных подвыборках.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 26.11.2011
Размер файла 1,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Министерство образования и науки, молодежи и спорта Украины

Харьковский национальный университет имени В. Н. Каразина

Социологический факультет

Курсовая работа

по курсу: «Математическая статистика»

«Анализ пpизнака №74 «частота покупок книг не по каталогу клуба» в «Клубе Семейного Досуга»: влияние «удовлетворенности ценной»; «проживания в городе» и «образования»

Выполнил:

студент III курса

группы СЦ-34

Нанагюлян В.А.

Харьков

2011

План

  • Введение
  • Раздел №1 Одномерное распределение
    • 1. Частотный анализ и анализ распределения
  • Раздел №2 Двумерные распределения
    • 1. Анализ зависимости между признаками «удовлетворенность ценой» и «частота покупок книг не по каталогу»
    • 2. Анализ зависимости между признаками «проживание в городе» и «частота покупок книг не по каталогу»
    • 3. Анализ зависимости между признаками «частота покупок книг не по каталогу» и «образование»
  • Раздел №3 Анализ различий значимости признаков
    • 1. Анализ различий долей в двух подвыборках
    • 2. Анализ значимости различий исследуемого признака «частота приобретения книг не по каталогу» в подвыборках признаков «проживание в городе» и «уровень образования» (построенный признак)
  • Выводы
  • Литература
  • Приложение

Введение

В работе использовался массив маркетингового исследования, проведенного одним из харьковских социологических центров в 2001 году. Исследование касалось такой организации как «Клуб семейного досуга».

Предполагается, что уменьшения заказов книг связано с удовлетворенностью услугами клуба, а потребность в чтении книг будет удовлетворятся, если не заказами по каталогу клуба, то в других местах. Основным исследовательским признаком выступает признак в анкете №74 «частота покупок книг не по каталогу клуба».

Исследователь изначально выходит из того, что на основной признак (зависимую переменную) могут влиять такие дополнительные признаки (не зависимые переменные), как, «образование», «проживание в городе».

Гипотезы:

1) Существует зависимость между удовлетворенностью ценной на книги в клубе и частотой покупок книг не по каталогу, чем больше цена не удовлетворяет членов клуба, тем чаще они покупают книги не по каталогу клуба.

2) Члены клуба, проживающие в городах, чаще покупают книги не по каталогу клуба, чем те члены, которые проживают не в городах.

3) Существует зависимость между образованием и частотой приобретения книг не по каталогу клуба.

Главная гипотеза звучит так: «Существует зависимость между частотой покупок книг не по каталогу и признаками «проживание в городе», «образование», а возможным фактором того, что количество заказов уменьшается, есть то, что цены на товары являются высокими».

Задачи:

1) Используя методы для анализа распределения основного исследовательского признака:

· установить, как часто члены клуба приобретают книги, не по каталогу клуба, а в других местах (признак № 74); построить частотное распределение;

· проанализировать форму распределения (отличие от нормальности);

· рассчитать меры центральной тенденции и вариации.

2) Проанализировать двумерные распределения исследуемого признака с переменными «образование» и «проживание в городе»:

· представить совместные распределения признаков в форме таблиц и графиков;

· рассчитать критерий хи-квадрат и коэффициенты корреляции, оценить их значимость.

3) Провести анализ значимости различий исследуемого признака в разных подвыборках.

· провести анализ значимости различий долей (процентов) в подвыборках «жители городов» и «жители не городов».

· провести анализ значимости различий исследуемого признака в двух и более подвыборках построенных на основе признаков «образование», «проживание в городе».

Раздел №1 Одномерное распределение

1. Частотный анализ и анализ распределения

Исходя из нашей проблемы, логичной кажется гипотеза, что уменьшение заказов книг связано с их стоимостью. В данном разделе мы попытаемся рассмотреть данную гипотезу, а именно проследим взаимосвязь между удовлетворенностью ценной на книги из каталога клуба с частотой покупки книг не по каталогу клуба. Основным признаком будет выступать «частота покупки не по каталогу клуба». Именно данный признак может указывать на то, что когда условия заказов книг по каталогу клуба, являются не такими выгодными как приобретения книг в других местах, то выбор места приобретения книг падает именно на эти места. Соответственно, можно предположить, что чем больше являются неудовлетворенными члены клуба, ценой на книги в каталоге, тем чаще они будут покупать книги в других местах. Данные признаки не являются достаточными для точного установления данной зависимости, следовало бы проследить изменение частоты заказов с изменением цены в каталоге «Клуба Семейного Досуга», но так, как такими данными мы не располагаем, будут исследоваться вышеуказанные признаки.

Признак «проживание в городе» интересный для нас, тем, что можно проследить разницу в частоте покупок книг не по каталогу клуба между членами клуба, и проживающими не в городах.

Для начала следует рассмотреть частотное распределение (см. приложение к рис.№1, таблица №1). Вопрос в анкете звучит так: «Оцените, пожалуйста, работу клуба по 5-ти бальной шкале» (признак в анкете № 39). Наша шкала является порядковой, значит, такой показатель центральной тенденции как среднее арифметическое не может применяться.

Рисунок №1

С диаграммы на рис.№1, можно увидеть, что 54% респондентов, редко приобретают книги не по каталогу клуба, приблизительно 22, 5% никогда, 17,5 % приобретают книги не по каталогу часто, 6% приобретают книги постоянно. Сразу следует сделать вывод, что больше половины респондентов редко приобретают книги вне клуба.

Если охарактеризовать данное распределение одним числом, которое будет показывать центральную тенденцию, то это будет медиана. В нашем случае она равняется 3-му варианту (см. приложение таблица №2), т.е. кумулятивный процент, в размере 50% приходиться на 3-й вариант.

Среднее арифметическое для распределение на признак №74, составляет примерно 2,92(см. приложение к рис.№1, таблица №3) , т.е. в среднем выбирают такие варианты ответов как «часто» и «редко», причем «редко» выбирают чаще чем «часто». Для оценки вариации признака нужно использовать «стандартное отклонение от среднего». Для признака №74 оно составляет 0,79 т.е. если ответы разнятся от среднего, то в основном на одну градацию. Как вывод, можно сказать, что в среднем члены клуба редко приобретают книги не по каталогу клуба.

Но высчитывая среднюю арифметическую, и все остальные тесты и коэффициенты, которые на нем основываются, важно знать насколько распределение признака приближается к нормальному, потому, что среднее арифметическое зависит от всего распределения, и если «края» распределения окажутся слишком не симметричны, то среднее арифметическое будет искажать центральную тенденцию распределения. Для выяснения характера распределения, насколько оно близко к колоколу Гауса, в основном используют показатели ассиметрии и эксцесса, а также строятся графики (рис.3, рис.4). График на рис. 3 является гистограммой с кривой нормального распределения, визуально можно определить, что наше распределение отличается от нормального, также на рис.4 изображена Q-Q диаграмма, здесь каждое наблюдаемое значение квантилей, сравнивается со значением, ожидаемым при нормальном распределении. При условии точного выполнения нормального распределения все точки лежат на прямой [1 ст.176]. Наша диаграмма показывает отклонение от прямой изображенной на диаграмме.

Ассиметрия (skewness) равняется -0,595 (ошибка 0,055) (см. приложение к рис.№1, таблица №3), показывает перекос распределения по отношению к кривой Гаусса, в нашем случае есть небольшая правосторонняя ассиметрия - в сторону градаций уменьшения частоты покупок, традиционно она считается значимой на уровне 0,5, т.е. если рассчитанная ассиметрия является больше 0,5 то распределение не есть нормальным. Эксцесс (kurtosis) равняется 0,393 (ошибка 0,109), показывает насколько «пик» распределения отличается от нормального, т.е. наше распределение имеет небольшой позитивный эксцесс.

Рисунок №2

Для характеристики нормальности распределения существует также тест Колмогорова-Смирнова, он легко рассчитывается с помощью программы SPSS. Рассчитанный тест Колмогорова-Смирнова, а также тест Шапиро-Уилкса представлены в таблице №4(см.приложение табл.№4).

Рисунок №3

В SPSS сразу дается уровень значимости рассчитанного коэффициента, тест Колмогорова-Смирнова равняется 0,302, Шапиро-Уилка равняется 0,803, а их уровень значимости 0,000…, что меньше чем 0,05 или 0,01 т.е. критических значений. Мы можем с вероятностью 0,99% утверждать, что наше распределение не является нормальным, т.е. принимаем гипотезу о различии эмпирического распределения от теоретического (принимаем гипотезу ).

Тест Колмогорова-Смирнова и Шапиро Уилкса, говорят нам о том, что распределение не является нормальным, это значит, что при дальнейшем анализе нужно применять не параметрические тесты.

Раздел №2 Двумерные распределения

1. Анализ зависимости между признаками «удовлетворенность ценой» и «частота покупок книг не по каталогу»

Исходя из поставленных задач, которые должны помочь подтвердить или опровергнуть гипотезу о зависимости между неудовлетворенностью ценами на книги в каталоге и частотой покупок книг не по каталогу, нам следует построить таблицу сопряженности и выяснить существует ли связь между признаками, а если она существует, то нужно установить, насколько сильна эта связь.

Вопрос, который соответствует признаку «удовлетворенность ценой» звучит так: «Оцените, пожалуйста, работу клуба по 5-ти бальной шкале» (признак в анкете № 39) следует сразу заметить, что в ходе анализа, такую градацию как «затрудняюсь ответить» следует исключить, ответы на этот вариант будут обозначены как «не ответы».

Двумерное распределение частот представлено в таблице №5 приложения работы, можно видеть, что трудно судить о распределении двух признаков, т совершенно не возможно без проведения определенных тестов определить их зависимость. Поэтому для анализа таблиц используют коэффициенты сопряженности и корреляции.

Следует также заметить, что анализируются признаки, выраженные через порядковые шкалы, т.е. через один уровень измерения, следовательно - следует рассматривать коэффициенты, преимущественно, для порядковых шкал.

Установим, существует ли зависимость между признаками, для этого нужно рассчитать хи-квадрат, а в случае его не надежности - другие критерии связи, например - коэффициенты, основаны на прогнозе ( Гутмана, ).

В таблице №1 представлен критерий ч2 и его уровень значимости. С таблицы мы видим, что ч2 является значимым на уровне 1%. В одной ячейке таблицы, наблюдается ожидаемая частота меньше 5, что составляет 5% от всех ячеек таблицы. Существует условие, при котором ч2 теряет свою надежность, если более 20% ячеек с ожидаемыми частотами будут меньше 5, или хотя бы одна ячейка с ожидаемой частотой меньше 1 [3, с.58].

Таблице №1

Критерии хи-квадрат

Значение

ст.св.

Асимпт. значимость (2-стор.)

Хи-квадрат Пирсона

143,535a

12

,000

Кол-во валидных наблюдений

1898

a. В 1 (5.0%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна 4.30.

В нашем случае критерий ч2 является надежным и значимым, т.е. с вероятностью 99% можно утверждать, что связь между признаками №39 и №74 существует.

Таблица№2

Направленные меры

Значение

Асимптотическая стандартная ошибка

Прибл. Tb

Прибл. значимость

Номинальная по номинальной

Лямбда

Симметричная

,006

,004

1,306

,192

Зависимая 39

,010

,008

1,306

,192

Зависимая 74

,000

,000

.c

.c

Тау Гудмена и Краскала

Зависимая 39

,017

,003

,000d

Зависимая 74

,019

,004

,000d

Порядковая по порядковой

d Сомерса

Симметричная

,202

,020

10,015

,000

Зависимая 39

,213

,021

10,015

,000

Зависимая 74

,192

,019

10,015

,000

Для уверенности можно посмотреть на коэффициенты, основанные на прогнозе в табл.2, которые легко рассчитываются в программе SPSS. Данные коэффициенты дают возможность не только установить связь, но также и ее направленность, т.е. какой признак, является фактором.

С таблицы №2 мы видим, что такой показатель как Гутмана не является значимым в случае улучшения прогноза признака № 74, т.е. возможно, что связь либо отсутствует, либо все модальные значения лежат в одной колонке или строке [3,ст.65]. А в случае улучшения прогноза признака № 39 коэффициент является не значимым.

Более надежным коэффициентом (не сильно зависящим от распределения модальных значений) является . Данный коэффициент показывает наличие связи между признаками, т.е. все его показатели являются значимыми. Но если построить интервалы, из стандартной ошибки, можно увидеть, что они будут пересекаться, т.е. значения коэффициентов настолько близки, что судить о том, какой из признаков сильнее влияет друг на друга, не представляется возможным. Следует сделать вывод, что возможно, для этих двух переменных, существует общий фактор. Т.е. связь между двумя признаками опосредуется третьим.

Силу связи между переменными, можно выяснить с помощью таких коэффициентов как коэффициент корреляции Пирсона, Спирмена, Кендала. Коэффициент Пирсона не применим в нашем случае, так как, наше распределение не является нормальным. Коэффициент Кендала, который лучше отображает силу связи для порядковых переменных (потому, что не предполагает равности расстояний между вариантами, как коэффициент Спирмена) [3, ст.172], тоже не может быть применимым, так как количество вариантов у переменных является не одинаковым [4, ст.232].

Из таблицы №6 приложения, можно увидеть, что коэффициенты ранговой корреляции Спирмена и (гамма), являются значимыми, и находясь в интервале 0,2 < г <= 0,5 [1,ст.257] показывают слабую пропорциональную корреляцию (чем больше один признак, тем больше другой) .

График двумерного распределения представлен на рисунку №5.

Рисунок№5

Как вывод можно заметить, что существует слабая пропорциональная корреляция между признаками, т.е. имеется связь между признаками «удовлетворенность ценной» и «частота покупок книг не по каталогу». С программы исследования предполагалось, что признак №39 влияет на признак №74, но значения коэффициентов настолько близки, что судить о том, какой из признаков сильнее влияет друг на друга, не представляется возможным. Т.е первая гипотеза подтверждается не полностью.

2. Анализ зависимости между признаками «проживание в городе» и «частота покупок книг не по каталогу»

Если рассмотреть гипотезу, о связи проживания в городе и не в городе с частотой покупок книг не по каталогу клуба. То для ее установления следует построить новый признак, который был бы дихотомическим и разделял респондентов на городское и не городское население. Новые признаки легко строятся с помощью таких пакетов обработки статистической информации как SPSS и ОСА.

Рисунок№6

6,9% проживающих в городе членов клуба, постоянно приобретают книги не по каталогу клуба, и 4,9% респондентов которые проживают не в городе, 19% городского населения и 14,6% не городского часто приобретают книги не по каталогу клуба. Редко приобретают книги не по каталогу 54,8% городского и 53,3 % не городского населения. Никогда не приобретают книги не по каталогу клуба 19,3% членов клуба проживающих в городе и 27,2%членов клуба проживающих не в городе. Можно видеть, что большая часть респондентов, как жителей городов и не городов, редко приобретают книги не по каталогу клуба.

Двумерное распределение по признакам «проживание в городе»(признак №124 в массиве) и «частота покупок книг не по каталогу» представлено в таблице №7 приложения. График распределения представлен на рис.6.

В таблице №3 представлен рассчитанный критерий хи-квадрат, который показывает, что с вероятностью 99% взаимосвязь между признаками существует. Тем более, что критерий ч2 является надежным. Критерии для номинальной шкалы представлены в таблице №8 приложения.

Таблица№3

Критерии хи-квадрат

Значение

ст.св.

Асимпт. значимость (2-стор.)

Хи-квадрат Пирсона

21,768a

3

,000

Кол-во валидных наблюдений

2017

a. В 0 (.0%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна 47.52.

Коэффициент ф Гудмана-Краскел в табл.№9 приложения, говорит нам, что существует очень маленькая связь между признаками, тем более, коэффициент показывает, что предполагаемая, не зависимая переменная (ее значение 0,11 со стандартной ошибкой 0,05) поддается большему влиянию зависимой переменной (значение коэффициента 0,03 со стандартной ошибкой 0,02). Т.е. признак №124 улучшает прогноз признака №74 на 3%, а признак №74 улучшает прогноз признака №124 на 11%.

Следует предположить, что существует общий фактор, который влияет на поведение обоих переменных.

3. Анализ зависимости между признаками «частота покупок книг не по каталогу» и «образование»

Мы можем предположить, что существует связь между уровнем образования и частотой покупок книг не по каталогу клуба. Т.е следует рассмотреть связь между признаками № 4(«уровень образования) и №74(частота покупок книг не по каталогу клуба).

Из таблицы №10 приложения можно увидеть двумерное распределение. для установления связи рассчитаем ч2, его значение представлено в таблице № 4.

Таблица№4

Критерии хи-квадрат

Значение

ст.св.

Асимпт. значимость (2-стор.)

Хи-квадрат Пирсона

102,753a

21

,000

Кол-во валидных наблюдений

2017

a. В 9 (28.1%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна .06.

Из таблицы видно, что ч2 значим на уровне 1%, но является не надежным - более 20% ожидаемых частот меньше 5, а минимальная ожидаемая частота - 0,06, что значительно меньше 1. Т.е. как показатель связи, мы не можем использовать этот критерий и основанные на нем коэффициенты.

Коэффициенты Фи, V Крамера, для анализа использовать нельзя, так как они основаны на ч2, а он не надежен. Так же мы не можем использовать коэффициенты tau Кендала, так как они предназначен для порядковой шкалы, и коэффициент корреляции r Пирсона, так как он используется для анализа взаимосвязи между признаками, измеренными метрическими шкалами. Значит, для установления связи и ее силы мы можем использовать коэффициенты, основанные на прогнозе (таблица №5).

Такими коэффициентами являются ф Гудмана-Краскел и Гутмана, они рассчитаны и представлены в таблице №5 . Коэффициент Гутмана, все три формулы показывают о подтверждении (нулевой гипотезы), т.е. о том, что связи между переменными нет, при этом следует помнить, что данный коэффициент построен на модальных частотах, и для прогноза модальных частот [2,ст.65-66]. Но если взять более точный коэффициент, который строится на всем спектре частот. То он показывает, что опровергается и с вероятностью 99% принимается.

Таблица №5

Направленные меры

Значение

Асимптотическая стдандартная ошибкаa

Прибл. Tb

Прибл. значимость

Номинальная по номинальной

Лямбда

Симметричная

,018

,008

2,291

,022

Зависимая № 4 (отметьте только один пункт)

,027

,013

2,133

,033

Зависимая №74

,003

,002

1,733

,083

Тау Гудмена и Краскала

Зависимая № 4

,012

,002

,000c

Зависимая №74,

,015

,003

,000c

Связь маленькая, но она существует, причем, если не учитывать стандартные ошибки, то коэффициент показывает меру направления - влияние признака № 4 на №74 больше чем наоборот. Но принимая во внимание стандартные ошибки нельзя утверждать о том, какой признак, на какой влияет.

Опять следует предположить, что скорее всего, если и есть связь между данными признаками, то она опосредована третьим признаком.

Если упростить анализ, объединив некоторые градации признака №4 «уровень образования», т.е. построить новый признак, то переменная будет иметь такой вид: 1-высшее образование, 2-средне специальное , 3-среднее (объединяются категории: среднее, неоконченное высшее, среднее професиональное) , 4 - неполное среднее (объединяются категории: неполное среднее, начальное, меньше 4-х классов). Таблица двумерного распределения (табл.10.1) в приложении. Диаграмма распределения представлена на рисунке №7.

Рисунок №7

Критерий ч2 (табл.4.1) для построенного признака является значимым на уровне 1% ошибки. Ожидаемая частота не меньше чем 3,2, значит наш ч2 надежный.

Таблица 4.1

Критерии хи-квадрат

Значение

ст.св.

Асимпт. значимость (2-стор.)

Хи-квадрат Пирсона

74,332a

9

,000

Кол-во валидных наблюдений

2017

a. В 1 (6.3%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна 3.20.

После преобразования признака мы с большей уверенностью можем утверждать о наличии связи между признаками, даже и если она опосредована - мы определили значимость ч2, а также коэффициент Гутмана приобрел значимость (таблица№5.1).

Таблица 5.1

Направленные меры

Значение

Асимптотическая стдандартная ошибкаa

Прибл. Tb

Прибл. значимость

Номинальная по номинальной

Лямбда

Симметричная

,014

,008

1,605

,109

Зависимая № 125

,024

,015

1,605

,109

Зависимая № 125,

,000

,000

.c

.c

Тау Гудмена и Краскала

Зависимая №125

,015

,004

,000d

Зависимая № 125

,010

,002

,000d

Тем более, что построенный признак будет использован в дальнейшем анализе для установления статистических различий построенных на его основе выборок.

Раздел №3 Анализ различий значимости признаков

1. Анализ различий долей в двух подвыборках

Мы установили, что существует слабая опосредованная связь между признаками «частота покупок книг по каталогу» и «проживание в городе». Следуя гипотезе, выведенной в программе исследования, нам нужно установить, существует ли статистически значимое различие в частоте покупок книг не по каталогу, между такими группами как «жители городов» и «жители других населенных пунктов».

Просто сравнить проценты мы не можем, так как мы сравниваем выборки, которые с ошибками представляют генеральную совокупность, для этого нам нужно убедиться, что данные расхождения не обусловлены случайными факторами, т.е. рассчитать статистическую значимость расхождения. Расчет значимости расхождений процентов являет собой проверку статистической гипотезы о равенстве процентов определенного признака у двух независимых выборках.

Ранее мы выяснили, что распределение нашего признака №74 «частота покупок книг не по каталогу» не подчиняется закономерностям нормального распределения, поэтому для анализа значимости различий корректнее использовать непараметрические тесты.

Нам следует с помощью выяснения статистически значимого различия, подтвердить или опровергнуть гипотезу о том, что люди, проживающие в городе, чаще приобретают книги не по каталогу клуба, чем те, кто в городе не проживает.

Проверку статистической значимости расхождения процентов мы не можем провести с помощью программы «ОСА», так как в нашем случае не выполняется одно из условий расчета расхождения процентов. Поэтому для выявления сходства или различия между процентами мы будем использовать программу SPSS.

Для этого в двумерных распределениях выводим нормированные остатки, которые показывают разницу между ожидаемой и измеряемой частотой.

Таблица№6

Таблица сопряженности 74 Приобретаете ли вы книги не по журналу клуба, а других местах? * 124, Где Вы проживаете?

124, Где Вы проживаете?

Итого

город

не город

74, Приобретаете ли вы книги не по журналу клуба, а других местах?

1, Да, постоянно

Частота

86

38

124

Ожидаемая частота

76,5

47,5

124,0

Стандартиз. остаток

1,1

-1,4

2, Да, часто

Частота

236

113

349

Ожидаемая частота

215,2

133,8

349,0

Стандартиз. остаток

1,4

-1,8

3, Да, редко

Частота

682

412

1094

Ожидаемая частота

674,7

419,3

1094,0

Стандартиз. остаток

,3

-,4

4, Никогда (переход к вопросу 76)

Частота

240

210

450

Ожидаемая частота

277,5

172,5

450,0

Стандартиз. остаток

-2,3

2,9

Итого

Частота

1244

773

2017

Ожидаемая частота

1244,0

773,0

2017,0

Именно, сравнение ожидаемых и измеряемых частот, позволит нам сделать выводы о статистическом различии процентов. Считается, что о значимом расхождение частот, ожидаемых и рассчитанных, можно судить, если нормированный остаток больше или равняется 2.

Мы можем увидеть, что статистически значимо отличается только категория «никогда», т.е. действительно ответы в двумерном распределении на категорию «никогда», значимо разнятся между собой. Можно утверждать, что члены клуба, проживающие не в городе, меньше покупают книги, чем члены, проживающие в городах.

Также мы можем выявить значимую разницу между процентами с помощью других возможностей программы SPSS -таблица №7.

Таблица №7

Сравнение пропорций по столбцам

124, Где Вы проживаете?

город

не город

(A)

(B)

74, Приобретаете ли вы книги не по журналу клуба, а других местах?

1, Да, постоянно

2, Да, часто

B

3, Да, редко

4, Никогда (переход к вопросу 76)

A

Мы можем сделать вывод, что по второму тесту Результаты основаны на двустороннем критерии при уровне значимости 0.05. Для каждой пары, в которой обнаружены значимые различия, буква, обозначающая категорию с меньшей пропорцией в столбце, появляется в категории с большей пропорцией в столбце., с вероятностью 95% можно утверждать, что в таких категориях двумерного распределения как «Да, постоянно» и «Никогда» признака №74, наблюдается статистически значима разница между процентами для признака №124.

При двумерном распределении мы получили такие ответы на вопрос «Приобретаете ли вы книги не по журналу клуба, а других местах?». 19% проживающих в городе и 14,6% проживающих не в городе часто покупают книги. Доля тех членов клуба, которые живут в городах, и часто покупающих книги не по каталогу клуба, больше, чем доля тех, кто часто покупает книги не по каталогу клуба, проживающих не в городах. 19,3% городского населения никогда не приобретают книги не по каталогу клуба, в тоже время среди тех, кто проживает не в городе 27% тех, кто обще не приобретают книги не по каталогу клуба.

Мы выяснили, что доля проживающих в городах членов клуба, часто покупающая книги не по каталогу клуба, больше чем, доля тех членов, клуба, которая не проживает в городах. Или проще - рабочая гипотеза №2 подтверждается.

2. Анализ значимости различий исследуемого признака «частота приобретения книг не по каталогу» в подвыборках признаков «проживание в городе» и «уровень образования» (построенный признак)

Нам следует проверить, существуют ли статистически значимы различия между ответами на вопрос о частоте покупок книг не по каталогу, между такими подвыборками, как «члены клуба проживающие в городе» и «членами клуба проживающие не в городе»; между подвыборками построенными в зависимости от уровня образования.

Для анализа различий мы будем использовать непараметрические критерии, так как признак №74 (зависимая переменная) «частота покупок не по каталогу клуба», распределен не нормально, это мы выяснили выше, когда рассчитали тест Колмогорова-Смирнова для проверки нормальности распределения.

Исследуем построенные подвыборки из признака № 124 «проживание в городе». Признак делится на две подвыборки - те, кто проживают в городе (n=1244), и те, кто живут не в городах (n=773). Если мы предположим, что наш признак №124 является псевдометрическим, то можно рассчитывать критерий Манна-Уитни.

Рассчитанный критерий Манна-Уитни представлен в таблице №12 приложения, показывает, что с вероятностью 99%, существуют статистически значимы различия в ответах на вопрос №124, т.е. подтверждается, и данные различия не обусловлены случайными факторами или выборочным распределением, т.е. применимы ко всей генеральной совокупности.

Если исследовать значимость различий в подвыборках, построенных по признаку образование №125 (который мы построили), то выделяются четыре подвыборки: 1-высшее образование, 2-средне специальное , 3-среднее 4 - неполное среднее. В этом случае, тест Манна-Уитни, так как мы имеем больше чем две независимые выборки - их 4. Применяем Н-тест Краскала и Уоллиса. Его значения представлены в таблице № 9.

С вероятностью больше чем 99,9% гипотеза подтверждается, т.е. существуют статистически значимы различия в ответах на вопрос №124.

Анализируя таблицу двумерного распределения признаков «образование» и «частота покупок» (таблица №10) мы видим, что доля тех, кто часто приобретает книги не по каталогу (при условии, что категорию «не полное среднее» образование не учитывать) увеличивается при повышении уровня образования, и уменьшается доля тех, кто никогда не приобретаю книги не по каталогу клуба.

Можно сделать вывод, что с повышением уровня образования, повышается и частота покупок книг не по каталогу клуба.

Выводы

После построения одномерного распределения, мы увидели, что больше половины респондентов редко приобретают книги вне клуба. А также установили, что в среднем члены клуба редко приобретают книги не по каталогу клуба.

Также проведение анализа показало, что первая наша гипотеза подтверждается частично. Существует зависимость и корредяционная связь между «удовлетворенностью ценной на книги в клубе» и «частотой покупок книг не по каталогу». К тому же, мы установили, что существует слабая пропорциональная корреляция между признаками, т.е. когда значение одного признака увеличивается, значение другого увеличивается тоже. С программы исследования предполагалось, что признак №39 влияет на признак №74, но значения коэффициентов настолько близки, что судить о том, какой из признаков сильнее влияет друг на друга, не представляется возможным. Из этого дальше мы предполагаем, что, возможно, для этих двух переменных, существует общий фактор. Т.е. связь между двумя признаками опосредуется третьим.

Мы выяснили, что распределение нашего основного признака не является нормальным, и это было причиной использования в дальнейшем, разных коэффициентов, не основанных на нормальном распределении.

Также мы установили, что существует, предположительно, опосредованная связь, между признаком «частота покупок книг не по каталогу» и признаками «проживание в городе» и «образование». При помощи анализа различий выяснили, что доля проживающих в городах членов клуба, часто покупающая книги не по каталогу клуба, больше чем, доля тех членов клуба, которая не проживает в городах и эта, разница статистически значима. Т.е. вторая наша рабочая гипотеза о том, что члены клуба проживающих в городах чаще покупают книги не по каталогу клуба, подтверждается.

Также мы выяснили, что существует статистически значима разница в частоте приобретения книг не по каталогу клуба, между подвыборками созданными по уровню образования. Значит значения признаков можно проецировать на генеральную совокупность.

Все три выдвинутые в программе исследования гипотезы подтверждаются.

Литература

распределение корреляция выборка

1. Бюлль А., Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. - СПб.: ООО «ДиаСофтЮП», 2005. - 608 с.

2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. - М.: ГУ ВШЭ, 2007. -281 с.

3. Паніотто В.І., Максименко В.С., Марченко Н.М. Статистичний аналіз соціологічних даних. - К.: КМ Академія, 2004. - 270 с.

4. Ермолаев О.Ю.Математическая статистика для психологов: Учебник/О.Ю.Ермолаев.- 2-е изд., испр.-М: Московский психолого-социальный институт: Флинта, 2003, -336.

Приложение

Таблица №1

ПРИОБРЕТАЕТЕ ЛИ ВЫ КНИГИ НЕ ПО ЖУРНАЛУ КЛУБА, А В ДРУГИХ МЕСТАХ?

Частота

Процент

Валидный процент

Кумулятивный процент

Валидные

1, Да, постоянно

124

6,1

6,1

6,1

2, Да, часто

349

17,3

17,3

23,5

3, Да, редко

1094

54,2

54,2

77,7

4, Никогда (переход к вопросу 76)

450

22,3

22,3

100,0

Итого

2017

100,0

100,0

Пропущенные

-99,00

1

,0

Итого

2018

100,0

Таблица №2

Приобретаете ли Вы книги не по каталогу клуба, а в других местах?

N

Валидные

2017

Пропущенные

1

Медиана

3,0000

Асимметрия

-,595

Стд. ошибка асимметрии

,055

Эксцесс

,139

Стд. ошибка эксцесса

,109

Процентили

25

3,0000

50

3,0000

75

3,0000

Таблица№3

Приобретаете ли Вы книги не по каталогу клуба, а в других местах?

N

Валидные

2017

Пропущенные

1

Среднее

2,9271

Медиана

3,0000

Стд. отклонение

,79815

Дисперсия

,637

Асимметрия

-,595

Стд. ошибка асимметрии

,055

Эксцесс

,139

Стд. ошибка эксцесса

,109

Процентили

25

3,0000

50

3,0000

75

3,0000

Таблица №4

Критерий нормальности

Колмогоров-Смирновa

Шапиро-Уилк

Статистика

ст. св.

Значимость

Статистика

ст. св.

Значимость

Приобретаете ли Вы книги не по каталогу клуба, а в других местах?

,302

2017

,000

,830

2017

,000

a. Поправка значимости Лильефорса

Таблица№5

Таблица сопряженности

39 Цены на предлагаемую продукцию * 74 Приобретаете ли Вы книги не по каталогу клуба, а в других местах?

74, Приобретаете ли Вы книги не по каталогу клуба, а в других местах?

Итого

1, Да, постоянно

2, Да, часто

3, Да, редко

4, Никогда (переход к вопросу 76)

39, Цены на предлагаемую продукцию

"1"- совершенно неудовлетворительно

Частота

25

33

47

15

120

Ожидаемая частота

7.6

21.2

65.2

26.0

120.0

% в № 39

20.83%

27.50%

39.17%

12.50%

100.00%

% в № 74

20.83%

9.85%

4.55%

3.65%

6.32%

"2"- неудовлетворительно

Частота

41

93

203

47

384

Ожидаемая частота

24.3

67.8

208.8

83.2

384.0

% в № 39

10.68%

24.22%

52.86%

12.24%

100.00%

% в № 74

34.17%

27.76%

19.67%

11.44%

20.23%

"3"- удовлетворительно

Частота

30

144

487

182

843

Ожидаемая частота

53.3

148.8

458.4

182.5

843.0

% в №39

3.56%

17.08%

57.77%

21.59%

100.00%

% в № 74

25.00%

42.99%

47.19%

44.28%

44.42%

"4"- хорошо

Частота

23

62

256

142

483

Ожидаемая частота

30.5

85.3

262.6

104.6

483.0

% в № 39

4.76%

12.84%

53.00%

29.40%

100.00%

% в № 74

19.17%

18.51%

24.81%

34.55%

25.45%

"5" - отлично

Частота

1

3

39

25

68

Ожидаемая частота

4.3

12.0

37.0

14.7

68.0

% в № 39

1.47%

4.41%

57.35%

36.76%

100.00%

% в № 74

0.83%

0.90%

3.78%

6.08%

3.58%

Итого

Частота

120

335

1032

411

1898

Ожидаемая частота

120.0

335.0

1032.0

411.0

1898.0

% в № 39

6.32%

17.65%

54.37%

21.65%

100.00%

% в № 74

100%

100%

100%

100%

100%

Таблица №6

Симметричные меры

Значение

Асимптотическая стдандартная ошибкаa

Прибл. Tb

Прибл. значимость

Номинальная по номинальной

Фи

,275

,000

V Крамера

,159

,000

Коэффициент сопряженности

,265

,000

Порядковая по порядковой

Тау-b Кендалла

,202

,020

10,015

,000

Тау-c Кендалла

,177

,018

10,015

,000

Гамма

,304

,029

10,015

,000

Корреляция Спирмена.

,230

,022

10,294

,000c

Интервальная по интервальной

R Пирсона

,241

,023

10,813

,000c

Кол-во валидных наблюдений

1898

a. Не подразумевая истинность нулевой гипотезы.

b. Используется асимптотическая стандартная ошибка в предположении истинности нулевой гипотезы.

Таблица№7

Таблица сопряженности признаков №74 и № 124

124, Проживание в городе

Итого

Проживают в городе

Другие населенные нункты

74, Приобретаете ли Вы книги не по каталогу клуба, а в другом месте.

1, Да, постоянно

% в №74,

69,4%

30,6%

100,0%

% в №124,

6,9%

4,9%

6,1%

2, Да, часто

% в №74,

67,6%

32,4%

100,0%

% в №124,

19,0%

14,6%

17,3%

3, Да, редко

% в №74,

62,3%

37,7%

100,0%

% в №124,

54,8%

53,3%

54,2%

4, Никогда (переход к вопросу 76)

% в №74,

53,3%

46,7%

100,0%

% в №124,

19,3%

27,2%

22,3%

Итого

% в №74,

61,7%

38,3%

100,0%

% в №124,

100,0%

100,0%

100,0%

Таблица №8

Симметричные меры

Значение

Прибл. значимость

Номинальная по номинальной

Фи

,104

,000

V Крамера

,104

,000

Коэффициент сопряженности

,103

,000

Кол-во валидных наблюдений

2017

Таблица №9

Направленные меры

Значение

Асимптотическая стдандартная ошибкаa

Прибл. T

Прибл. значимость

Номинальная по номинальной

Лямбда

Симметричная

,000

,000

.b

.b

Зависимая №74,

,000

,000

.b

.b

Зависимая 124,

,000

,000

.b

.b

Тау Гудмена и Краскала

Зависимая №74,

,003

,002

,000c

Зависимая №124

,011

,005

,000c

Таблица №10

Таблица сопряженности 4 КАКОЕ У ВАС ОБРАЗОВАНИЕ? (отметьте только один пункт) * 74, Приобретаете ли Вы книги не по журналу клуба а в других местах?

74, ПРИОБРЕТАЕТЕ ЛИ ВЫ КНИГИ НЕ ПО ЖУРНАЛУ КЛУБА, А В ДР

Итого

1, Да, постоянно

2, Да, часто

3, Да, редко

4, Никогда (переход к вопросу 76)

4 КАКОЕ У ВАС ОБРАЗОВАНИЕ? (отметьте только один пункт)

1, Меньше 4-х классов

% в №4

100,0%

100,0%

% в №74,

,1%

,0%

2, Начальное (меньше 7 классов)

% в №4

40,0%

60,0%

100,0%

% в №74,

,6%

,7%

,2%

3, Неполное среднее (меньше 10 классов)

% в № 4

4,3%

4,3%

58,7%

32,6%

100,0%

% в №74,

1,6%

,6%

2,5%

3,3%

2,3%

4, Полное среднее (10-11 классов)

% в №4

4,0%

14,3%

52,2%

29,4%

100,0%

% в №74,

8,9%

11,2%

13,0%

17,8%

13,5%

5, Среднее профессиональное (СПТУ, ПТУ)

% в №4

2,0%

11,1%

57,1%

29,8%

100,0%

% в№ 74,

5,6%

11,2%

18,4%

23,3%

17,5%

6, Среднее специальное (техникум, медучилище и т,д,)

% в №4

6,4%

16,0%

55,3%

22,4%

100,0%

% в 74,

32,3%

28,7%

31,6%

31,1%

31,0%

7, Неоконченное высшее (3 курса ВУЗа и более)

% в №4

6,0%

23,1%

50,0%

20,9%

100,0%

% в №74,

8,9%

12,0%

8,3%

8,4%

9,0%

8, Высшее

% в №4

9,9%

23,5%

53,7%

12,9%

100,0%

% в №74,

42,7%

35,8%

26,1%

15,3%

26,4%

Итого

% в №4

6,1%

17,3%

54,2%

22,3%

100,0%

% в №74,

100,0%

100,0%

100,0%

100,0%

100,0%

Таблица №10.1

Таблица сопряженности №125* Какое у Вас образование ? * 74, Приобретаете ли Вы книги не по журналу клуба а в других местах?

74, Приобретаете ли Вы книги не по журналу клуба а в других местах?

Итого

1, Да, постоянно

2, Да, часто

3, Да, редко

4, Никогда (переход к вопросу 76)

№125

образование

Высшее образование

Ожидаемая частота

32,8

92,2

289,1

118,9

533,0

%№ 125

9,9%

23,5%

53,7%

12,9%

100,0%

% в №74

42,7%

35,8%

26,1%

15,3%

26,4%

Среднее специальное образование

Ожидаемая частота

38,5

108,3

339,5

139,7

626,0

%№ 125

6,4%

16,0%

55,3%

22,4%

100,0%

% в №74

32,3%

28,7%

31,6%

31,1%

31,0%

среднее образование

Ожидаемая частота

49,6

139,5

437,2

179,8

806,0

%№ 125

3,6%

14,9%

53,8%

27,7%

100,0%

% в №74

23,4%

34,4%

39,7%

49,6%

40,0%

Неполное среднее

Ожидаемая частота

3,2

9,0

28,2

11,6

52,0

%№ 125

3,8%

7,7%

53,8%

34,6%

100,0%

% в №74

1,6%

1,1%

2,6%

4,0%

2,6%

Итого

Ожидаемая частота

124,0

349,0

1094,0

450,0

2017,0

%№ 125

6,1%

17,3%

54,2%

22,3%

100,0%

% в №74

100,0%

100,0%

100,0%

100,0%

100,0%

Таблица №11

Таблица сопряженности 74, ПРИОБРЕТАЕТЕ ЛИ ВЫ КНИГИ НЕ ПО ЖУРНАЛУ КЛУБА, А В ДР * 124, Где Вы проживаете?

% в 124, Где Вы проживаете?

124, Где Вы проживаете?

Итого

город

не город

74, ПРИОБРЕТАЕТЕ ЛИ ВЫ КНИГИ НЕ ПО ЖУРНАЛУ КЛУБА, А В ДР

1, Да, постоянно

6,9%

4,9%

6,1%

2, Да, часто

19,0%

14,6%

17,3%

3, Да, редко

54,8%

53,3%

54,2%

4, Никогда (переход к вопросу 76)

19,3%

27,2%

22,3%

Итого

100,0%

100,0%

100,0%

Таблица №12

Приобретаете ли вы книги не по журналу клуба, а других местах?

Статистика U Манна-Уитни

427730,000

Статистика W Уилкоксона

1202120,000

Z

-4,598

Асимпт. знч. (двухсторонняя)

,000

a. Группирующая переменная: 124 проживание

Таблица № 13

Статистики критерия Краскала и Уоллиса

Приобретаете ли вы книги не по журналу клуба, а других местах?

Хи-квадрат

71,225

ст.св.

3

Асимпт. знч.

,000

b. Группирующая переменная: образование

Размещено на Allbest.ru


Подобные документы

  • Составление характеристики непрерывного признака. Методы составления приближенного распределения признака, имеющего непрерывное распределения. Относительные частоты и их плотности. Статистическое распределение частот интервального вариационного ряда.

    творческая работа [17,8 K], добавлен 10.11.2008

  • Алгоритм определения вероятности события и выполнения статистических ожиданий. Оценка возможных значений случайной величины и их вероятности. Расчет математического ожидания, дисперсии и среднего квадратического отклонения. Анализ характеристик признака.

    контрольная работа [263,8 K], добавлен 13.01.2014

  • Описание признака сходимости числовых рядов Даламбера, решение задач на исследование сходимости. Формулировка радикального признака сходимости Коши знакоположительного ряда в предельной форме. Доказательство знакочередующихся и знакопеременных рядов.

    реферат [190,9 K], добавлен 06.12.2010

  • Вариация признаков в совокупности. Типы рядов распределения: атрибутивные и вариационные. Классификация по характеру вариации. Основные характеристики и графическое изображение вариационного ряда. Показатели центра распределения и колеблемости признака.

    курсовая работа [110,0 K], добавлен 23.07.2009

  • Построение и графическое изображение вариационных рядов. Дискретный вариационный ряд распределения урожайности зерновых, сельскохозяйственных предприятий по качеству почв. Показатели центра распределения. Показатели формы и колеблемости признака.

    лабораторная работа [208,0 K], добавлен 15.05.2014

  • Сущность, цели применения, основные достоинства метода канонических корреляций. Оценка тесноты связи между новыми каноническими переменными U и V. Максимальный канонический коэффициент корреляции, методика его расчета. Использование критерия Бартлетта.

    презентация [109,2 K], добавлен 10.02.2015

  • Расчет параметров экспериментального распределения. Вычисление среднего арифметического значения и среднего квадратического отклонения. Определение вида закона распределения случайной величины. Оценка различий эмпирического и теоретического распределений.

    курсовая работа [147,0 K], добавлен 10.04.2011

  • Определение вероятности случайного события, с использованием формулы классической вероятности, схемы Бернулли. Составление закона распределения случайной величины. Гипотеза о виде закона распределения и ее проверка с помощью критерия хи-квадрата Пирсона.

    контрольная работа [114,3 K], добавлен 11.02.2014

  • Обработка случайных выборок с нормальным законом распределения. Оценка коэффициентов регрессии и доверительных интервалов. Оценка значимости факторов по доверительным интервалам и корреляционного момента. Построение эмпирической интегральной функции.

    курсовая работа [135,7 K], добавлен 03.05.2011

  • Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.

    презентация [134,4 K], добавлен 14.04.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.