Руководство по применению Базового модуля SPSS 8.0
Выполнение статистического анализа при помощи программного продукта SPSS 8.0: создание и просмотр таблиц, вычисление дескриптивных статистик. Однофакторный и многофакторный дисперсионный анализ данных. Корреляция и регрессия количественных переменных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 21.05.2013 |
Размер файла | 416,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
SPSS - зарегистрированная торговая марка, и остальные имена программных продуктов-- торговые марки SPSS Inc. для программного обеспечения. Все материалы, содержащие описание данного программного обеспечения, могут воспроизводиться и распространяться только с письменного разрешения владельца торговых марок и прав на размножение и распространение опубликованных материалов.
ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ и ДОКУМЕНТАЦИЯ попадают под действие законов об охране авторских прав США и России.
Общее примечание: названия других продуктов используются в данном документе только для их идентификации и могут являться торговыми марками других компаний.
SPSS® Base 8.0 для Windows® Applications Guide, Copyright © 1998 by SPSS Inc. All rights reserved Перевод - Copyright © 1998 СПСС Русь
Издательство Центра Общечеловеческих Ценностей. Лицензия на издательскую деятельность № ЛП 070211.
Ни один фрагмент данного материала не может быть воспроизведен, сохранен в системе коллективного доступа, воспроизведен в любой форме - электронной, механической, фотографической, магнитофонной и т.д., без предварительного письменного разрешения издателя.
Содержание
Предисловие
1. Анализ данных в SPSS: Обзор
2. Основные понятия
3. Просмотр данных
4. Дескриптивные статистики
4.1 Дескриптивные статистики для нормально распределенных данных
4.2 Дескриптивные статистики для количественных переменных и переменных с упорядоченными значениями
4.3 Дескриптивные статистики для переменных с неупорядоченными категориями
5. Критерии сравнения средних
5.1 Одновыборочный, парный и двухвыборочный t-критерии
6. Однофакторный и многофакторный дисперсионный анализ
7. Проверка взаимосвязей
7.1 Измерение связи между дискретными переменными
8. Корреляция и регрессия для количественных переменных
9. Выявление групп
Предисловие
SPSS 8.0 является программным продуктом, предназначенным для выполнения всех этапов статистического анализа: от просмотра данных, создания таблиц и вычисления дескриптивных статистик до применения сложных статистических методов. Как известно, редко удается получить разумные результаты, просто "напустив" статистическую процедуру на собранные данные. Многолетний опыт разработки программного обеспечения и учет отзывов широкой группы пользователей SPSS позволил в данной версии предложить совокупность методов и средств, позволяющих вам понять ваши данные и представить результаты в виде, легко воспринимаемом другими. Графика, встроенная в статистические процедуры, равно необходима как для понимания данных, так и для представления результатов.
SPSS 8.0 для Windows 95 или Windows NT позволяет сделать процесс анализа данных легким и быстрым:
* Навигатор Вывода (Viewer) с древовидной структурой представления результатов позволяет быстро выбирать таблицы и диаграммы в нужном вам порядке, передвигаясь по дереву по мере появления новых вопросов к данным.
* С помощью одного-двух нажатий мышью в мобильной таблице можно поменять ее структуру, убрать не относящиеся к вашей задаче результаты, поменять заголовки и метки и т.п. Совершенно новые возможности предоставляют так называемые скрипты (макроязык типа Visual Basic) - вы, помимо всего прочего, можете автоматизировать внесение нужных изменений в мобильные таблицы.
* Подсказки всегда могут быть вызваны нажатием мыши. Когда у вас возникают вопросы о каком-либо элементе диалогового окна, о статистике в окне вывода или о шагах, необходимых для выполнения задачи, нажмите на правую кнопку мыши, и вы получите помощь. Новый Инструктор По Статистике поможет вам найти правильную процедуру в Базовом модуле SPSS.
Данное Руководство по применению Базового модуля SPSS 8.0 подскажет, как найти подход к вашим данным, поставить разумные задачи, решить их и интерпретировать результаты. Вторая книга - Руководство пользователя Базового модуля SPSS 8.0 для Windows - содержит описание графического интерфейса пользователя Базового модуля SPSS 8.0 для Windows.
За меню и диалоговыми окнами в SPSS скрыт язык команд (Syntax), который можно использовать для создания и выполнения стандартных работ (рroduction job).
Заполнив диалоговое окно, вы можете, кликнув по кнопке Вставка, вставить в окно синтаксиса команды, которые выполняют процедуру, запускаемую этим окном. Там их можно изменить, запустить их исполнение и сохранять; некоторые процедуры системы доступны только при обращении к ним с помощью команд в окне синтаксиса. Полностью синтаксис языка команд приведен в руководстве SPSS 8.0 Syntax Reference Guide, которое включено в CD-версию программного обеспечения и может быть приобретено отдельно в печатном виде.
1. Анализ данных в SPSS: Обзор
Смысл термина анализ данных неодинаково трактуется разными людьми и в разных прикладных областях. Некоторые считают, что анализ данных заканчивается с выводом дескриптивных статистик, графика или результата статистического вычисления. Для других он представляет собой последовательность шагов, каждый из которых может предполагать дальнейший анализ и появление новых задач для исследования. SPSS является универсальной статистической системой программ, поддерживающей процесс анализа данных на любом уровне и предназначенной для реализации полной последовательности шагов анализа данных: от просмотра данных, создания таблиц и вычисления дескриптивных статистик до сложного статистического анализа. Графические средства, встроенные в статистические процедуры, облегчают понимание данных и интерпретацию результатов анализа; они неоценимы для представления результатов анализа.
Данное руководство организовано в соответствии с имеющимися процедурами: для каждой из них мы приводим примеры и описываем, как интерпретировать результаты. Этот обзор является путеводителем по типам задач, для решения которых требуется проведение анализа данных, и по возможностям Базового модуля SPSS, помогающим с ними справляться. Рассмотренные примеры помогут вам в планировании и проведении анализа данных. spss статистика переменные корреляция
Приведенные примеры иллюстрируют только процедуры Базового модуля SPSS - в них даже не упоминаются многие более сложные и специализированные статистические процедуры. Более того, в этих примерах рассмотрены только используемые по умолчанию и наиболее часто используемые процедуры Базового модуля и их опции. Акцент делается на понимании основ и получении результатов, которым вы можете доверять. Из-за этого, хотя в примерах и используются реальные данные, мы не утверждаем, что выборка надежна, а результаты анализа можно перенести на популяцию в целом. Получение репрезентативной выборки является решающим для всякого исследования, но этот вопрос не является предметом обсуждения в данной книге.
Описание каждого примера содержит имя файла данных из числа входящих в поставку Базового модуля SPSS и краткую инструкцию по проведению анализа данных. Информация о файлах данных приводится в приложении. Вместе с системой SPSS инсталлируется также учебник, помогающий освоить управление системой, использование имеющихся в ней окон и процедур. Несколько минут, проведенных с учебником, сделают вашу дальнейшую работу более быстрой и успешной. Наконец, вы можете получить помощь и в процессе работы с системой: щелкнув правой кнопкой мыши на имени статистики в диалоговом окне или протоколе результата и выбрав в появившемся меню пункт Что это такое?, вы получите определение этой статистики.
2. Основные понятия
Данные. SPSS позволяет читать много различных типов файлов или вводить данные непосредственно в Редактор Данных. Какой бы ни была структура вашего исходного файла данных, в Редакторе Данных он будет представлен в прямоугольном виде - так принято не только в SPSS, но и в большинстве других систем анализа данных, причем строки соответствуют наблюдениям, а столбцы - переменным. Наблюдение (сноску см. в конце главы) содержит информацию об одной единице анализа, такой, как пациент, животное, ценная бумага или реактивный двигатель. Переменные содержат информацию, собранную об одном наблюдении, такую, как вес, рост, доходность или расход горючего. Вы можете ввести метки имен для переменных и конкретных значений переменных (например, 1 = Азия, 2 = Европа и т.п.), а также выбрать, что выводить в протоколе результатов: имена или метки переменных, коды или метки градаций.
В данных часто встречаются так называемые пропущенные значения - они возникают из-за отсутствия ответов в некоторых наблюдениях, ошибок при измерениях или в результате неправильных вычислений. Каждое такое значение заменяется в SPSS специальным кодом - системным кодом пропущенного значения. Пользователь может выбрать специальный код для обозначения пропущенных значений (например, код 9 для шкалы со значениями от 1 до 7). В подобном случае необходимо сообщить системе коды пропущенных значений, чтобы в дальнейшем иметь возможность исключить их из анализа (кроме тех случаев, когда вы захотите специально включить эти значения в обработку).
Информацию о задании меток, пропущенных значениях, форматах данных и других видах описания данных можно найти в Руководстве пользователя по Базовому модулю SPSS (в дальнейшем - просто Руководство пользователя).
Вывод результатов. Результаты проведенного анализа появляются в навигаторе вывода (Viewer) SPSS. Большинство процедур Базового модуля представляют результаты в виде мобильных таблиц, которые можно разными способами редактировать с целью выделения наиболее важных результатов анализа. В тех примерах данного руководства, где описывается редактирование мобильных таблиц, фигурирует символ [].
Для вызова режима редактирования таблицы дважды щелкните мышью в каком-либо месте таблицы. Для удаления с экрана столбца или строки нажмите на Ctrl-Alt и щелкните левой клавишей мыши на метке этого столбца или строки, а затем выберите пункт Скрыть в меню Вид или щелкните правой кнопкой мыши и выберите в появившемся меню пункт Выбрать, а затем - Ячейки данных и метки. Чтобы изменить ширину колонки, оттяните ее правую границу в пределах границ поля. Чтобы сменить положение одного из элементов таблицы (например, статистики, расположенные по строкам, расположить по столбцам), выберите пункт Лотки мобильной таблицы в меню Мобильные и передвиньте соответствующий значок [] с одного лотка на другой или поменяйте порядок значков на одном из лотков. Если щелкнуть на каком-либо значке левой кнопкой мыши, будет подсвечен элемент таблицы, соответствующий этому значку. Дополнительную информацию о редактировании таблиц и работе в навигаторе вывода можно найти в Руководстве пользователя.
Преобразования. Данное руководство включает много примеров преобразований. Термин преобразования охватывает очень большой набор функций, арифметических и логических операций, которые могут быть применены к данным. Преобразование дает значение для одного наблюдению за раз.
Примеры преобразований:
* Создание новой переменной:
total = quiz1 + quiz2 + 2*final.
* Изменение шкалы измерений:
log_wt = LG10 (weight).
* Изменения кодировки значений: религия (7,8,11,12= 0).
Дополнительную информацию о том, как задать нужное преобразование, можно найти в Руководстве пользователя.
Отбор и сортировка наблюдений. Чтобы отобрать подмножество наблюдений для анализа, можно использовать значения переменных, функции и операции сравнения, такие, как пол="мужской" и возраст > 21. Диалоговое окно Select Cases (Отбор наблюдений) в меню Данные Редактора Данных позволяет также отобрать случайную подвыборку или диапазон наблюдений для просмотра или анализа. Для этого выберите опцию Если выполнено условие, нажмите на кнопку Если и задайте условие отбора. Функция Расщепить файл позволяет разбить совокупность наблюдений на подмножества.
Это может пригодиться, например, в случае, когда нужно провести анализ для каждого из значений переменной регион отдельно. Подробнее эти и другие способы реорганизации файла данных описаны в Руководстве пользователя.
3. Просмотр данных
Реальные данные редко удается собрать без проблем. Первым шагом после ввода данных является выявление ошибок при их записи и вводе, а также проверка соответствия данных предположениям, лежащим в основе планируемых методов анализа. В больших исследованиях проверка данных отнимает чрезвычайно много времени и сил.
В этом разделе предлагаются некоторые шаги, которые вы можете предпринять для проверки данных. Разумеется, более точные рекомендации зависят от объема вашего исследования, ставящихся в нем целей и возникающих при этом проблем.
Выявление выбросов и ошибочных значений. Первый шаг при проверке данных обычно состоит в поиске значений, выходящих за разумные пределы значений переменной, - необходимо выяснить, действительно ли это выбросы или это ошибки.
* Используйте процедуру Частоты для подсчета появления каждого отдельного значения (если переменная не имеет сотни значений, как, например, переменная номер страхового полиса). Так вы можете обнаружить опечатки и неожиданные значения. Ищите также пропущенные значения, которые представлены как валидные.
* Для количественных переменных используйте гистограммы в процедуре Частоты или Исследовать, а также ящичковые диаграммы и диаграммы "ствол-лист" в процедуре Исследовать. Обращайте внимание на выбросы, которые показывают диаграммы.
* Для данных большого объема определите максимальные и минимальные значения с помощью процедур Дескриптивные или Средние (смотрите таблицу 1.2). Вы можете обнаружить коды значений, не входящие в заданный набор, или коды пропущенных величин (например, 999), которые трактуются как обычные данные.
* Используйте процедуру Итоги по наблюдениям для просмотра данных. Можно выбрать группирующую переменную и разбить данные на содержательно интерпретируемые группы. Для просмотра может оказаться полезной и предварительная сортировка данных по значению некоторой переменной. По умолчанию для просмотра выводятся только первые 100 объектов выборки; вы можете увеличить или уменьшить это число. Чтобы отобрать наблюдения для просмотра, используйте пункт Отбор наблюдений в меню Данные. Можно также вычислить нормированные значения (standardized scores) переменной и отобрать наблюдения со значениями этой переменной, превосходящими, скажем, 3.
Зачастую выбросы легче обнаружить, если вы исследуете две или более переменных одновременно.
* Для дискретных данных неправдоподобные или нежелательные комбинации значений могут быть выявлены с помощью таблиц сопряженности. Так вы можете обнаружить, например, что в выборке фигурируют покупатели, никогда не посещавшие магазин, но оценившие его.
* Используйте двумерные диаграммы рассеяния из меню Графики для обнаружения необычных комбинаций значений числовых данных. Изучите матрицу диаграмм рассеяния для изучения комбинаций значений нескольких переменных.
* Для выявления выбросов в наборе количественных переменных могут оказаться полезны расстояние Махалонобиса и балансировка в процедуре Регрессия.
Оценка характера распределения. Распределение данных может оказаться не таким, как предполагалось - не похожим на нормальное и даже несимметричным. Если распределения переменных сильно асимметричны, использование процедуры Регрессия для предсказания одной переменной с помощью набора других переменных может привести к неадекватным результатам. Иногда эту проблему можно преодолеть, используя логарифмическое преобразование типа
lоg_нас= LG10(населен).
Для проверки распределения вы можете:
* Построить гистограммы с наложенными нормальными кривыми, используя процедуры Частоты или графики из меню Графики.
* Использовать процедуру Исследовать или Р-Р-графики (Р-Р plots) из меню Графики для построения графиков на вероятностной бумаге. Такие графики можно использовать для сравнения эмпирического распределения не только с нормальным, но и с несколькими другими стандартными видами распределений.
* При большом объеме данных сравнить величины среднего, 5%-го усеченного среднего и медианы. Если они сильно различаются, распределение асимметрично.
* В качестве формального теста нормальности использовать критерии Колмогорова-Смирноваили Шапиро-Уилка процедуры Исследовать.
Если вы собираетесь сравнивать групповые средние, проблем может возникнуть еще больше. Например, при проведении дисперсионного анализа уровни значимости могут оказаться искаженными, если распределения в сравниваемых группах значительно отклоняются от нормального или их разбросы сильно различаются (то есть нарушается предположение о равенстве дисперсий). Для сравнения эмпирических распределений с нормальным и для сопоставления разбросов распределений внутри групп используйте ящичковые диаграммы. На приводимых ниже диаграммах продемонстрировано, как логарифмическое преобразование может улучшить распределение переменной население в рассматриваемых группах.
Для преодоления проблем с распределениями в группах придерживайтесь следующей стратегии:
* Примените критерий Ливиня для проверки однородности (равенства) дисперсий в процедуре Исследовать или Однофакторный дисперсионный анализ.
* Для стабилизации групповых дисперсий испробуйте степенное преобразование данных, предлагаемое процедурой Исследовать при построении диаграммы зависимости между разбросами и средними (группа Разброс по уровням с критерием Ливиня в диалоговом окне Графики процедуры Исследовать).
4. Дескриптивные статистики
Дескриптивные статистики могут полностью исчерпать потребности текущего исследования, но могут и оказаться первым шагом в изучении и понимании нового набора данных. Перед тем как начать описание данных (положение центра распределения, его разброс и т.п.), следует определить типы имеющихся переменных - то, что вы знаете о значениях этих переменных.
Неупорядоченные категории. Примером переменной с неупорядоченными категориями является переменная регион с кодами от 1 до 6 для значений Африка, Латинская Америка и других, а также переменная религия со значениями буддисты, католики, мусульмане и другими.
Упорядоченные категории. Пример упорядоченных категорий дает переменная полмнен (политические взгляды), градации которой упорядочены от значения крайне либеральные до значения крайне консервативные.
Количество. Примерами переменных этого типа являются число новых случаев СПИДа или число детей в семье.
Непрерывные. К этому типу относятся переменные, значение которых измеряется в определенных единицах, - такие, как длина в футах или сантиметрах. Значения таких переменных являются непрерывными - вы можете записать возраст субъекта числом 35 или числом 35,453729 (это же верно и для дней, часов, минут, секунд).
При решении многих статистических задач переменные типа количество обрабатываются так же, как и непрерывные переменные. Арифметические вычисления, подобные подсчету средней величины или разностей, имеют смысл для переменных этих двух типов, но не имеют смысла для неупорядоченных дискретных переменных. Переменные с числовыми значениями называются количественными, если арифметические операции над их величинами имеют смысл.
Подавляющее большинство статистических показателей разработаны для количественных переменных. В частности, вычисление среднего и стандартного отклонения допустимо для количественных переменных с нормальным распределением. Однако для реальных данных предположение о нормальности часто не выполняется.
4.1 Дескриптивные статистики для нормально распределенных данных
Статистики, приведенные на таблице 1.1, предполагают как минимум, что переменная является количественной и ее распределение симметрично. Эти статистики могут приводить к ошибочным выводам в случаях, когда распределение значительно отклоняется от нормального, поэтому используйте графические возможности SPSS - просто посмотрите на распределение.
В этой и следующих таблицах столбец Группы показывает, вычисляется ли статистика для выборки в целом (Выборка) либо для подгрупп наблюдений, заданных с помощью одной группирующей переменной (Группы) или заданных комбинацией нескольких группирующих переменных (Кросс). В статистических текстах группирующие переменные часто называются факторами, а их значения - уровнями; в этой терминологии "перекрестные" (Кросс) означает "для всех комбинаций уровней множественных факторов". Для задания расслоения файла на группы вы можете также использовать опцию Расщепить файл в меню Данные Редактора Данных; эту процедуру можно использовать в том числе и для того, чтобы задать вычисление статистик на основе всей выборки.
Таблица 1.1 Дескриптивные статистики для нормально распределенных данных
Всюду, где только можно, используйте графики - они помогут вам удостовериться в том, что переменные, с которыми вы работаете, имеют примерно нормальное распределение:
* Гистограмма с нормальной кривой из процедуры Частоты.
* Диаграммы "ствол-лист" из процедуры Исследовать.
* Ящичковые диаграммы из процедуры Исследовать.
Другие представляющие интерес статистики - z-значения (z-scores) и средние, упорядоченные по величине, - доступны в процедуре Дескриптивные (статистики).
4.2 Дескриптивные статистики для количественных переменных и переменных с упорядоченными значениями
Статистики, приведенные на таблице 1.2, можно использовать для описания количественной переменной независимо от ее распределения; они полезны также для описания переменной с упорядоченным набором категорий (например, 1 = строго не соответствует, 2 = не соответствует,... 5 = строго соответствует).
Таблица 1.2 Дескриптивные статистики: нормальность не требуется
Графики, полезные для понимания этих распределений, - те же, что и для нормально распределенных числовых данных: гистограммы, диаграммы "ствол-лист", ящичковые диаграммы. Процедура Исследовать предлагает несколько робастных оценок и других методов обобщения данных, способствующих представлению распределений, которые могут отклоняться от нормальных:
* 5%-е усеченное среднее.
* М-оценки.
* Квартили.
В процедуре Исследовать вы можете запросить вывод пяти наибольших и пяти наименьших величин в пределах каждой группы с соответствующими им метками наблюдений.
4.3 Дескриптивные статистики для переменных с неупорядоченными категориями
Для переменных с неупорядоченными категориями полезны описания частоты наблюдений и проценты.
Протокол результатов обработки данных, сопровождающий вывод каждого результата, содержит число случаев и проценты для измеренных и пропущенных значений переменных.
Наиболее полезными для изучения распределения переменых с неупорядоченными категориями являются столбиковые диаграммы, построить которые позволяет процедура Частоты; их можно построить также, выбрав пункт Столбцы в меню Графики.
5. Критерии сравнения средних
Для проверки гипотез о средних значениях количественных переменных предназначены t-критерий и дисперсионный анализ (ANOVA). С их помощью можно сделать выводы о характеристиках популяции по статистикам, описывающим выборочные данные. Эти критерии выбираются в меню Сравнение средних и Общая линейная модель.
Для данных с распределениями, значительно отклоняющимися от нормального, более подходящими могут оказаться непараметрические критерии. Некоторые из критериев ориентированы на обработку ранговых данных (во время вычисления статистик таких критериев SPSS преобразует ваши данные в ранги). Применять непараметрические тесты для спасения данных нужно осторожно. Если ваши данные не удовлетворяют предположениям, необходимым t-критерию или дисперсионному анализу, перед обращением к непараметрической статистике следует попробовать преобразование данных. Хотя непараметрические критерии не требуют нормальности, они, как и их параметрические аналоги, все же основываются на некоторых предположениях. Например, критерий Манна-Уитни предполагает, что формы сравниваемых распределений сходны. Кроме того, если на самом деле популяции различаются, для доказательства этого различия с помощью непараметрической процедуры может потребоваться большая выборка, чем для критерия, основанного на предположении о нормальности распределения.
5.1 Одновыборочный, парный и двухвыборочный t-критерии
SPSS предлагает три типа t-критериев. Выбирайте нужный в зависимости от того, что именно вы сравниваете.
Для проверки различия средних значений некоторой переменной для объектов, принадлежащих двум сравниваемым группам, используйте t-критерий для независимых выборок. Пример: различается ли средний уровень холестерина в крови у группы пациентов, получавших лечение, и у контрольной группы?
Ранговый критерий Манна-Уитни является непараметрическим аналогом t-критерия для двух выборок. Он используется для проверки того, что две выборки принадлежат двум популяциям с одинаковыми распределениями. Это означает, что нет сдвига в положении центра распределения (не среднего, поскольку распределения могут быть и асимметричными!). Данный критерий не является полностью не зависящим от характера распределений, т.к. он предполагает, что распределения имеют сходную форму. Таким образом, группы могут различаться по положению центра, но должны иметь сходные вариабельность и асимметрию. Другими непараметрическими тестами для двух независимых выборок являются: критерий Мозеса, критерий Колмогорова-Смирнова, критерий серий Вальда-Вольфовица.
Для проверки гипотезы о том, что среднее значение попарных разностей значений двух переменных отлично от нуля, используйте t-критерий для парных выборок. Типичной для применения этого критерия задачей является сопоставление значений некоторого показателя при измерениях, проведенных до и после некоего события, для всех объектов выборки, причем результаты измерения представлены в данных как две разные переменные.
Непараметрическими аналогами парного t-критерия в SPSS являются критерий знаков и ранговый критерий разностей Уилкоксона. Критерий знаков для каждой пары наблюдений использует только знаки разностей. Критерий Уилкоксона начинает с ранжирования разностей без учета знаков, запоминая знаки для каждого ранга, а затем суммирует отдельно положительные и отрицательные ранги.
Для проверки отличия среднего значения единственной переменной от некоторой предполагаемой величины используйте одновыборочный t-критерий. Если среднее значение IQ для ваших соотечественников равно 100, а среднее IQ для выборки, состоящей из ваших сотрудников, равно 127.5, используйте этот критерий для проверки предположения о том, что ваши сотрудники сообразительнее, чем средний житель вашей страны.
6. Однофакторный и многофакторный дисперсионный анализ
Дисперсионный анализ применяется для тех же целей, что и двухвыборочный t-критерий, но для большего числа выборок. Этот метод позволяет сравнить вариабельность выборочных средних с разбросом наблюдений в каждой из групп. Нулевая гипотеза заключается в том, что выборки составлены из популяций с равными средними.
Для однофакторного дисперсионного анализа (One-Way ANOVA) группы, или ячейки, определяются уровнями одного группирующего фактора с двумя или более уровней. В многофакторной процедуре ANOVA группы определяются уровнями двух или более факторов. Например, если объекты исследования группируются по полу (мужской, женский) и городу (Чикаго, Лос-Анджелес, Нью-Йорк), получается шесть групп: мужчины из Чикаго, женщины из Чикаго, мужчины из Лос-Анджелеса, женщины из Лос-Анджелеса и т.д. Полная вариация зависимой переменной делится на составляющие - для пола, для города и для их взаимодействия. Базовый модуль SPSS обеспечивает три процедуры дисперсионного анализа:
В некоторых ситуациях ковариата (или, на языке регрессионного анализа, независимая переменная) может вносить дополнительный вклад в изменчивость зависимой переменной. При анализе ковариаций изменчивость зависимой переменной корректируется по вкладу ковариаты. Например, при исследовании уровня холестерина в крови у группы лиц, получавших лечение, и у контрольной группы возраст может быть полезной ковариатой для пациентов разного возраста. Поскольку известно, что количество холестерина с возрастом увеличивается, использование возраста в качестве ковариаты учитывают соответствующую изменчивость.
Непараметрическим аналогом однофакторного дисперсионного анализа является критерий Краскела-Уоллеса. Он подобен критерию Манна-Уитни для двух независимых выборок, за тем исключением, что он суммирует ранги для каждой из k групп. Имеется также медианный критерий. В нем для каждой группы определяются число наблюдений, которые превышают медиану, вычисленную по всем группам, и число наблюдений, которые меньше медианы, после чего строится двумерная таблица сопряженности. Критерий Фридмана является непараметрическим обобщением парного t-критерия для случая, когда количество сравниваемых переменных больше двух.
7. Проверка взаимосвязей
При выборе индикаторов, измеряющих зависимости между переменными, вам нужно принимать во внимание типы исследуемых переменных. Если переменные дискретны, вы найдете соответствующие меры в процедуре Таблицы сопряженности. Если переменные количественные, причем распределение их значений можно считать нормальным, можно использовать линейную модель в процедуре Регрессия или корреляцию Пирсона в процедуре Парные корреляции. Если предположение о нормальности распределении не кажется правдоподобным, используйте корреляцию Спирмена.
7.1 Измерение связи между дискретными переменными
Для двумерных частотных таблиц наблюдений, соответствующих сочетанию значений двух дискретных переменных, процедура Таблицы сопряженности предлагает 22 критерия значимости и мер связи. Каждый критерий относится к определенным типам таблиц (с определенным числом строк и столбцов); несколько критериев подходят для упорядоченных категорий.
8. Корреляция и регрессия для количественных переменных
Коэффициент корреляции является мерой линейной связи между двумя количественными переменными. Простая регрессия представляет собой другой подход к той же проблеме. Корреляционная матрица отображает статистики для множества переменных попарно, а многомерная регрессия характеризует линейную связь между одной переменной и подмножеством других переменных.
Пирсоновская корреляция доступна в процедурах Парные корреляции. Частные корреляции. Регрессия и Таблицы сопряженности. Если вы хотите проверить, что пирсоновская корреляция равна 0 (т. е. линейная зависимость между двумя переменными отсутствует), данные должны иметь нормальное распределение. В тех случаях, когда это не так, в процедурах Парные корреляции и Таблицы сопряженности используйте спирменовскую корреляцию. При вычислении этой статистики каждое значение переменной заменяется на его ранг в совокупности всех значений (с поправками, если встречаются одинаковые значения).
Регрессия дает количественное выражение линейной зависимости между переменными, когда изменение значений одной переменной зависит от изменения значений нескольких других переменных. Наиболее простым видом линейной зависимости является уравнение прямой:
Для оценки того, насколько хорошо прямая линия описывает имеющуюся зависимость, полезна диаграмма рассеяния. Ниже приведена диаграмма из Главы 12, в которой использованы данные по 85-ти странам. Ожидаемые значения продолжителъности жизни женщин отложены по оси у (вертикальной), значения грамотности - по оси х (горизонтальной). Линия представляет собой линию наилучшего соответствия, оцененной с помощью регрессионной процедуры.
Чтобы представить статистическую модель в виде прямой, добавим к уравнению прямой член (е), обозначающий случайную ошибку, поскольку не все точки попадут на нашу прямую:
Процедура Регрессия позволяет найти оценки b0 (свободного члена) и b1 (угла наклона линии) и оценить степень близости точек к найденной прямой. Предполагается, что при каждом значении х величина y имеет нормальное распределение, центр которого лежит в точке на линии, соответствующей данному х. Значения х упорядочены, они могут быть, например, равны 1 для мужчин и 2 - для женщин. Вы можете включить в регрессию более двух независимых переменных:
Решая прикладную задачу, исследователь может не знать, какое именно множество из p переменных следует включить в многомерную регрессионную модель, и, возможно, захочет отделить важные переменные от тех, которые несущественны для предсказания. В процедуре Регрессия пользователь может выбрать одну из нескольких стратегий включения и исключения переменных по одной в каждый момент времени в пошаговом режиме. Например, один из методов начинается на первом шаге с выбора независимой переменной, имеющей наибольшее значение пирсоновской корреляции с зависимой переменной. На каждом последующем шаге добавляется переменная, которая максимально улучшает соответствие.
Графическое представление результатов полезно на всех стадиях анализа. После того как вы подберете регрессионную модель для своих данных, вам следует изучить остатки, предсказанные значения и диагностические индикаторы. Последние полезны для определения выбросов и отклонений от предположений, лежащих в основе анализа. Например, приведенная ниже точечная диаграмма зависимости диагностического индикатора DfFit от номера наблюдения показывает, что у стран в четвертом интервале его значения значительно большие, чем у стран в других интервалах, и, следовательно, построенная модель может быть чувствительна к этим наблюдениям. Перед построением этого графика страны были отсортированы по географическим регионам.
9. Выявление групп
В Базовый модуль SPSS 8.0 входят кластерный, дискриминантный и факторный анализ. Эти процедуры полезны для выявления групп.
Кластерный анализ является многофакторной процедурой для обнаружения группировок в данных. При использовании процедуры k-средних и иерархической процедуры кластеры образуются группами наблюдений. Иерархическая процедура может быть использована также для формирования групп переменных. Кластеризация является хорошим методом, если вы хотите разбить данные на классы или предполагаете, что данные могут быть неоднородными, и хотите увидеть, существуют ли явные группы. Другими словами, вы можете начать анализ, не зная состав групп.
Для классификации наблюдений может быть использован также дискриминантный анализ. В нем вы работаете с выборкой наблюдений, принадлежность которых классам уже известна. Процедура анализа позволяет найти линейные комбинации переменных, наилучшим образом характеризующие различия между группами (эти комбинации далее могут быть использованы для классификации новых наблюдений). Для того чтобы определить переменные, которые максимально полно описывают различие между группами, их можно вводить в функцию в пошаговом режиме.
Факторный анализ подходит для выявления групп коррелированных числовых переменных. Вы можете изучать корреляцию большого числа переменных, группируя переменные в факторы. Переменные в пределах каждого фактора коррелированы друг с другом сильнее, чем с переменными из других факторов. Вы можете также интерпретировать каждый фактор в соответствии со смыслом переменных и свести большое количество переменных к небольшому числу факторов. Факторные нагрузки могут быть использованы в качестве данных для t-критерия, регрессии и т.д.
Размещено на Allbest.ru
Подобные документы
Статистическая обработка первичной маркетинговой информации. Определение общих параметров выборки. Составление схемы кодировки анкеты. Способы формирования базы данных в формате SPSS. Ввод данных в компьютер. Кодирование переменных. Модификация данных.
презентация [533,9 K], добавлен 24.02.2015Общедоступные электронные архивы данных социологических опросов: характеристика основных разделов и география пользователей. Сущность методов социологических исследований, описание необходимых процедур и их реализация в программном пакете SPSS 17.0.
курс лекций [9,0 M], добавлен 05.11.2013Ознакомление с основами программного пакета Statistica. Описание статистики и графики. Группировка данных, корреляции, методы множественной регрессии. Рассмотрение набора непараметрических статистик. Реализация дисперсионного и ковариационного анализа.
контрольная работа [544,5 K], добавлен 09.06.2015Общее описание программы Statistica. Архитектура и интерфейс системы. Регрессионный анализ в Statistica. Решение задачи регрессионного анализа с помощью пакета анализа данных табличного процессора MS Excel. Многомерный дисперсионный анализ в SPSS.
курсовая работа [2,4 M], добавлен 22.01.2013Генерирование выборок, имеющих нормальный закон распределения, и определение для них математического ожидания и дисперсии. Нахождение значения критерия Фишера, сравнивнение его с критическим. Проведение однофакторного дисперсионного анализа выборок.
лабораторная работа [291,0 K], добавлен 19.02.2014Структура программного комплекса. Создание набора данных. Описание модуля funkcii.tpu. Копирование информации из НД в заданный файл. Сортировка массива по номерам. Просмотр элементов и вычисление среднего, минимума и максимума из заданного диапазона.
курсовая работа [626,6 K], добавлен 18.06.2014Анализ существующего программного обеспечения, технических систем: eM-Workplace, eM-Spot, eM-Arc, tecnomatix Robcad, Human Performance. Структура программного продукта. Руководство программиста, оператора. Выполнение анализа на тестируемой выборке данных.
курсовая работа [45,0 K], добавлен 03.04.2012Анализ предметной области. Средства и технологии разработки программного обеспечения. Требования к аппаратным и операционным ресурсам. Создание навигационного меню. Структура данных таблиц. Разработка интерфейса модуля. Сортировка и фильтрация данных.
дипломная работа [3,7 M], добавлен 12.05.2018Создание таблиц и просмотр содержимого базы данных. Редактирование данных и модификация структуры базы данных. Методы упорядочения записей (сортировка, индексирование). Выполнение вычислений в запросах. Приемы работы с формами, отчетами и макросами.
лабораторная работа [5,9 M], добавлен 13.01.2010Анализ существующего программного обеспечения. Этапы создания проекта. Концептуальное, логическое и физическое проектирование базы данных. Структура программного продукта. Руководство программиста и оператора. Тестирование программного продукта.
курсовая работа [586,4 K], добавлен 26.06.2015