Основы дисперсионного анализа

Содержание моделей дисперсионного анализа. Оценка уровня действия фактора с применением метода разбиения суммы квадратов. Схема однофакторного анализа с постоянными эффектами. Проблемы значимости его результатов. Процедура множественного сравнения средних

Рубрика Экономика и экономическая теория
Вид реферат
Язык русский
Дата добавления 26.08.2015
Размер файла 38,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Реферат

на тему: "Основы дисперсионного анализа"

Введение

Дисперсионный анализ является одним из наиболее распространенных методов, используемых для сравнения большого числа наборов случайных величин. Он широко применяется в планировании экспериментов, для проверки гипотез о наличии связи между откликом (ответом) системы и исследуемыми факторами, а также для установления силы влияния факторов и их взаимодействий.

Основная идея метода заключается в изучении источников изменчивости зависимой переменной (отклика) и разложении общей дисперсии наблюдаемых значений отклика на составляющие - дисперсию, обусловленную влиянием изучаемых факторов, и остаточную дисперсию, являющуюся следствием действия случайных причин и неучтенных факторов. Сравнивая дисперсию факторов с остаточной дисперсией, можно проверить гипотезу о влиянии факторов на величину изменчивости отклика.

Можно сказать, что дисперсионный анализ представляет собой систему понятий и технических приемов, позволяющих обобщить процедуру сравнения двух средних для двух выборок, взятых из генеральных совокупностей с нормальным распределением, на случай большого числа выборок.

1. Две модели дисперсионного анализа

Рассмотрим два простых примера.

1. Пусть из данной продукции - силикагеля - берутся kn гранул. Затем k групп из n гранул каждая хранятся при различных условиях, и после хранения определяется содержание воды в каждой грануле.

2. Из продукции производства окрашенных листов полистирола случайным образом берутся k листов. Из каждого листа случайным образом вырезается n кусков, и определяется толщина окрашенного слоя.

В первом примере мы рассматриваем содержание воды в n гранулах системы, извлеченной в качестве случайной выборки из нормально распределенной генеральной совокупности со средним значением и дисперсией, которые характеризуют эффект специфических условий хранения этих гранул. Если бы мы взяли другую случайную выборку в n гранул и поместили ее в те же условия хранения и провели те же измерения, то можно было бы считать, что мы имеем вторую выборку, извлеченную из той же самой генеральной совокупности и т.д. Иные системы наблюдений, соответствующие другим условиям хранения, интерпретируются аналогичным образом, т.е. каждому из k условий хранения сопоставляется нормально распределенная генеральная совокупность, и при этом предполагается, что k систем данных о содержании воды в гранулах извлечены из этих совокупностей случайным образом. Генеральные совокупности характеризуются k математическими ожиданиями и k дисперсиями, которые оцениваются k выборочными средними и дисперсиями соответственно.

Если эксперимент необходимо повторить, то создаются те же самые k условий хранения гранул, так как цель такого эксперимента состоит именно в анализе эффектов выбранных условий.

Таким образом, определяющим моментов этого типа дисперсионного анализа является предположение о том, что мы имеем k нормально распределенных генеральных совокупностей с математическими ожиданиями и одной и той же дисперсией Это предположение содержит k+1 неизвестных параметров, а именно k математических ожиданий и одну дисперсию, и целью дисперсионного анализа этого типа является оценка этих параметров, отыс.кание выборочных распределений оценок и проверка определенных гипотез относительно значений параметров. В частности, в приведенном примере в первую очередь проверяется гипотеза о том, что k генеральных средних равны, т.е. различия в условиях хранения не влияют на содержание воды в гранулах силикагеля.

Главная особенность рассматриваемого типа дисперсионного анализа является то, что каждое наблюдение рассматривается как сумма двух компонент, а именно, неизвестного среднего значения генеральной совокупности, из которой получено наблюдения и которое одинаково для всех наблюдений в пределах системы, и отклонения от этого среднего значения. Первая компонента считается неизвестной постоянной, тогда как вторая считается случайной величиной. Систематические различия между генеральными совокупностями характеризуются k генеральными средними, которые выражают эффекты k причин (способов обработки, условий хранения и т.д.

Теперь обратимся ко второму примеру.

Из каждого листа мы берем случайным образом n кусков и определяем толщину окраски. Эти измерения отклоняются случайным образом, потому что невозможно обеспечит одинаковую глубину проникновения красителя по всей поверхности листа из-за неоднородностей, которые всегда имеют место. Предполагается, что n измерений образуют случайную выборку, извлеченную из гипотетической бесконечной совокупности нормально распределенных измерений глубины проникновения красителя в одном и том же листе. Для i-го листа среднее значение соответствующей генеральной совокупности является мерой глубины проникновения красителя в этом листе, а дисперсия является мерой неоднородности листа. (Предполагается, что дисперсия одна и та же для всех листов.)

Из-за изменений в технологическом процессе глубина проникновения красителя может изменятся от листа к листу. Отсюда следует, что k листов рассматриваются как случайная выборка, извлеченная из гипотетической бесконечной совокупности окрашенных листов, которые могли быть изготовлены в данном процессе. Предполагая, что распределение глубины проникновения красителя в листы полистирола для данной совокупности нормально, можно рассматривать систему , как случайную выборку из этой совокупности, которая характеризуется генеральным средним и дисперсией .

Для данного примера повторение эксперимента означает, что берется новая выборка из k окрашенных листов, потому что конечной целью является характеристика процесса окрашивания в целом, а не сравнение каких-то конкретных k листов.

Главная особенность этого вида дисперсионного анализа состоит в предположении о том, что каждое измерение глубины проникновения красителя имеет две случайные компоненты:

отклонение измерения от ;

отклонение от .

Такое предположение влечет за собой появление трех неизвестных параметров - среднего и двух дисперсий, - а целью проводимого дисперсионного анализа по-прежнему является оценка этих параметров, отыскание их выборочных распределений, проверка определенных гипотез относительно значений параметров.

В данном конкретном примере наибольший интерес представляет, естественно, всех трех параметров, а затем сравнение двух дисперсий с тем, чтобы по результату такого сравнения определить, какой источник рассеяния является более важным.

Таким образом, основным в этом виде дисперсионного анализа является то, что каждое измерение рассматривается как сумма уже не двух, как в предыдущем случае, а трех компонент:

неизвестной постоянной - среднего значения, одного и того же для всех измерений;

случайной компоненты, связанной с группой причин, приводящих к рассеянию внутри систем измерений;

случайной компоненты, связанной с группой причин, приводящих к рассеянию между системами измерений.

Конечно, существуют значительно более сложные, чем рассмотренные варианты дисперсионного анализа, зависящие одновременно и от множества факторов, и от комбинаций постоянных и случайных эффектов, однако общие идеи, связанные с четким разграничением систематических и случайных компонент и существованием показателей изменчивости внутри и между системами наблюдений или измерений остаются одними и теми же.

2. Разбиение суммы квадратов

Дальнейшее изложение будет вестись для одного фактора с несколькими уровнями. Результаты экспериментов или наблюдений обычно представляются как в табл. 1.

По результатам применения каждого уровня действующего фактора вычисляются средние значения Однако сравниваются между собой не полученные средние, а так называемые эффекты

где - среднее всех наблюдений. Тогда результат i-го опыта при использовании уровня фактора j можно записать в виде:

(1)

где - ошибка результата.

Из этого равенства:

(2)

Возведя обе части в квадрат, получим:

(3)

Таких равенств для каждого уровня j всего , а всего уровней - k. Поэтому, складывая все равенства такого вида для каждого уровня, получим:

(4)

или

(5)

Это тождество и является основным в дисперсионном анализе. Из него следует, что варьирование всех результатов наблюдений или измерений около общего среднего может быть разложено на суммы квадратов, первая из которых характеризует варьирование, обусловленное изменчивостью эффектов различных уровней фактора, а вторая - варьирование под влиянием неучтенных факторов (ошибка эксперимента).

3. Однофакторный дисперсионный анализ с постоянными эффектами

В этом параграфе будет рассмотрена схема дисперсионного анализа с постоянными эффектами. Нас будет интересовать процесс статистического вывода относительно множества главных эффектов . Представим себе наличие бесконечной последовательностей повторений эксперимента, в каждом из которых будет объектов с уровнями. При этом совокупностей фиксируется таким образом, чтобы каждая из них обеспечивала получение одной выборки объема при каждом повторении эксперимента. дисперсионный анализ однофакторный квадрат

Таким образом, мы приходим к схеме дисперсионного анализа с постоянными эффектами. Будем также предполагать, что наблюдений на каждом уровне независимы и взяты из нормальной генеральной совокупности с дисперсией . Предполагается, что дисперсия одинакова на всех уровнях, а число наблюдений для них одинаково и равно .

Дисперсионный анализ включает в себя следующие этапы:

Для объяснения данных постулируется модель

,

где все независимы, а

Формулируется нуль-гипотеза

против , что, по крайней мере, два различны. Или иначе:

Выбирается уровень значимости , как правило, между 0,01 и 0,1

Производятся вычисления сумм квадратов (СК), степеней свободы и средних квадратов (ССК) по следующим формулам:

между уровнями:

внутри уровней:

при этом число степеней свободы для равно k(n-1), а для - (k-1) и:

.

Рассчитывается дисперсионное отношение

и сравнивается с критическим значением F - распределения для выбранного уровня значимости.

В табл. 2 приведены данные о времени простой зрительно-моторной реакции 40 испытуемых на предъявляемые стимулы разной интенсивности. Будем проверять гипотезу:

с уровнем значимости .

Прежде всего найдем степени свободы для , которые будут равны соответственно 4-1=3 и 4(10-1)=36. Промежуточные данные приведены в табл. 3. Используя эти данные, имеем:

Критическое значение F-распределения для 3 и 36 степеней свободы при выбранном уровне значимости =0,05 равно 3,81. Поэтому нулевая гипотеза на данном уровне значимости должна быть отвергнута, а мы должны сделать вывод, что использование разных интенсивностей стимула приводит к статистически значимым изменениям времени реакции.

Достаточно часто на практике сталкиваются с ситуацией, когда в силу тех или иных причин число наблюдений для каждого уровня фактора неодинаково. Изложенная выше методика распространяется и на этот случай. Числа степеней свободы для остаются прежними, а сами формулы для средних квадратов модифицируются:

,

Обсуждаемые здесь проблемы значимости результатов дисперсионного анализа базируются на определенных предположениях, в частности, на предположении о нормальности исходных данных и равенстве (однородности) дисперсий. Интерес представляет выяснение того, как нарушения этих предпосылок сказываются на уровне значимости. Теоретические и экспериментальные исследования показали следующее:

Когда объемы выборок равны, влиянием неоднородности дисперсий на уровень значимости F - критерия можно пренебречь.

Когда объемы выборок и их дисперсии не равны, а из совокупностей с большими дисперсиями выбирается меньшее число объектов, вероятность ошибки первого рода больше.

При этих же условиях, если из совокупностей с большими дисперсиями берется большее число объектов, то вероятность ошибки первого рода меньше.

Влияние нарушения нормальности на номинальный уровень значимости F - критерия очень незначительно.

Таким образом, мы видим, что процедура дисперсионного анализа достаточно устойчива к нарушению предпосылок, лежащих в ее основе.

Мы ограничиваемся здесь рассмотрением только варианта однофакторного дисперсионного анализа с постоянными эффектами, так как он является базовым, и его освоение позволит начинающему исследователю или специалисту осознанно использовать более сложные модификации дисперсионного анализа, содержащиеся во всех пакетах прикладного статистического анализа.

4. Множественное сравнение средних

Если ограничиться в результате дисперсионного анализа при непринятии нулевой гипотезы только констатацией факта, что не все средние равны между собой, то это несет не слишком много информации. В самом деле, если при достаточно большом N и и , то, очевидно, в обоих случаях однофакторный дисперсионный анализ приведет к отклонению нулевой гипотезы, хотя характер различия между средними совершенно разный. Поэтому результаты дисперсионного анализа с необходимостью должны быть дополнены множественным сравнением средних.

Возникает мысль о попарном сравнении всех средних с использованием, например, t-критерия. Однако t-критерий для этих целей непригоден, так как он разрабатывался для сравнения двух выборок и поэтому рассчитывать на его валидность для определения значимости различий между минимальным и максимальным выборочными средними в совокупности k средних не приходится. В самом деле, если k, например, равно 50 и из одной и той же генеральной совокупности извлекается 50 выборок случайным образом, то t-критерий будет описывать максимальное и минимальное значения как существенно различающиеся гораздо чаще, чем предсказывает выбранный уровень значимости .

Поэтому были разработаны различные методы множественных сравнений, один из которых мы и рассмотрим, не вдаваясь в его теоретическое обоснование, а обращая внимание на технику вычислений.

Прежде всего введем понятие стьюдентизированного размаха. Пусть - независимые одинаково распределенные нормальные случайные величины и пусть - размах этой выборки, а - оценка параметра , имеющая n-1 степень свободы и не зависящая от . Тогда случайная величина носит название стьюдентизированного размаха.

В наших обозначениях стьюдентизированный размах представляет собой разность между максимальным и минимальным средним k независимых выборок по n элементов из нормальной генеральной совокупности, деленную на , и является критическим значением для выбранного уровня значимости .

Итак, сначала определяются все k(k-1)/2 сравнения между выборочными средними. Например, если k=3, то вычисляются . Все разности такого вида делятся на , где n - число наблюдений в группе, соответствующей любому уровню фактора.

Полученные значения сравниваются со стьюдентизированным размахом и делаются соответствующие выводы.

Однако более важным является построение доверительных интервалов для всех разностей средних. Такие интервалы определяются по формуле:

где - критическое значение стьюдентизированного размаха с k и k(n-1) степенями свободы и уровнем значимости .

Рассмотрим пример. Пусть в результате эксперимента получены значения

Имеем Эти разности, деленные на дают -1,311, -9б 672, -8,361. Табличное значение для равно 3,49. Следовательно можно сделать вывод о том, что первое и второе средние незначимо отличаются друг от друга, а третье среднее отличается и от первого и от второго. Доверительные интервалы будут выглядеть так: (-2,93; 1,33); (-8,03;-3,77); (-7,23; -2,97).

Как указывалось уже в конце параграфа 2 дисперсионный анализ и множественное сравнение средних могут быть проведены и для значительно более сложных схем. Последовательность проверки нулевых гипотез, которых может быть достаточно много, сохраняется та же, что и в случае простого однофакторного эксперимента. Сохраняется и способ построения доверительных интервалов.

Литература

1. Елисеева И.И. Общая теория статистики: учебник для вузов / И.И. Елисеева, М.М. Юзбашев; под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2009. - 656 с.

2. Ефимова М.Р. Практикум по общей теории статистики: учебное пособие для вузов / М.Р. Ефимова и др. - М.: Финансы и статистика, 2007. - 368 с.

3. Мелкумов Я.С. Социально-экономическая статистика: учебно-методическое пособие. - М.: ИМПЭ-ПАБЛИШ, 2007. - 200 с.

4. Общая теория статистики: Статистическая методология в изучении коммерческой деятельности: учебник для вузов / О.Э. Башина и др.; под ред. О.Э. Башиной, А.А. Спирина. - М.: Финансы и статистика, 2008. - 440 с.

5. Салин В.Н. Курс теории статистики для подготовки специалистов финансово-экономического профиля: учебник / В.Н. Салин, Э.Ю. Чурилова. - М.: Финансы и статистика, 2007. - 480 с.

6. Социально-экономическая статистика: практикум: учебное пособие / В.Н. Салин и др.; под ред. В.Н. Салина, Е.П. Шпаковской. - М.: Финансы и статистика, 2009. - 192 с.

7. Статистика: учебное пособие / А.В. Багат и др.; под ред. В.М. Симчеры. - М.: Финансы и статистика, 2007. - 368 с.

8. Статистика: учебник / И.И. Елисеева и др.; под ред. И.И. Елисеевой. - М.: Высшее образование, 2008. - 566 с.

9. Теория статистики: учебник для вузов / Р.А. Шмойлова и др.; под ред. Р.А. Шмойловой. - М.: Финансы и статистика, 2007. - 656 с.

10. Шмойлова Р.А. Практикум по теории статистики: учебное пособие для вузов / Р.А. Шмойлова и др.; под ред. Р.А. Шмойловой. - М.: Финансы и статистика, 2007. - 416 с.

Размещено на Allbest.ru


Подобные документы

  • Основные положения факторного анализа. Принципы и модели дисперсионного анализа, его роль и место в статистических исследованиях. Особенности применения дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.

    курсовая работа [762,4 K], добавлен 01.07.2014

  • Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.

    курсовая работа [498,5 K], добавлен 11.05.2022

  • Виды анализа хозяйственной деятельности, применение методов сравнения, средних величин, группировки и цепных подстановок. Методика анализа организационно-технического уровня производства. Оценка основных фондов, затрат и себестоимости продукции.

    лекция [123,8 K], добавлен 09.06.2011

  • Методы анализа детерминированных моделей. Построение моделей факторного анализа. Методы анализа стохастических моделей. Методы оптимизации в экономическом анализе. Методы комплексного анализа. Рейтинговая оценка финансового состояния.

    курсовая работа [47,9 K], добавлен 12.05.2008

  • Расчет матрицы выборочных парных коэффициентов корреляции при помощи пакета анализа программы Excel. Однофакторный и двухфакторный дисперсионный анализ. Построение регрессионной модели. Модальный интервал по значению числа видов производимой продукции.

    контрольная работа [281,7 K], добавлен 29.03.2010

  • Понятие и основные этапы реализации дисперсионного анализа как статистического метода, позволяющего анализировать влияние различных факторов на исследуемую переменную. История его разработки и использование. Статистика Фишера и принципы F-распределения.

    презентация [2,1 M], добавлен 23.02.2017

  • Обработка данных лесной промышленности: получение распределения случайной величины, проверка гипотезы, проведение дисперсионного, корреляционного и регрессивного анализа. Сущность и содержание, особенности применения теории принятия решений, ее принципы.

    контрольная работа [314,2 K], добавлен 12.02.2013

  • Метод двухфакторного дисперсионного анализа. Оценка степени влияния изучаемых факторов на результирующий экономический показатель. Расчет в системе minitab. Первоначальная оценка модели взаимодействия и без взаимодействия факторов, сравнение результов.

    контрольная работа [23,1 K], добавлен 17.11.2010

  • Применение математического планирования эксперимента в научных исследованиях. Начальные навыки работы с совокупностью случайных величин. Расчёт математического ожидания, дисперсии и среднеквадратического отклонения. Результаты дисперсионного анализа.

    курсовая работа [1,7 M], добавлен 26.11.2013

  • Основы линейного регрессионного анализа. Особенности использования функции Кобба-Дугласа. Применение множественной линейной регрессии. Сущность метода наименьших квадратов. Пути избегания ложной корреляции. Проверка значимости коэффициентов регрессии.

    реферат [101,8 K], добавлен 31.10.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.