Дисперсионный анализ
Основные понятия дисперсионного анализа. Использование дисперсионного анализа при изучении миграционных процессов, в химии, в методике воспитания физических качеств, при биотестировании почвы. Дисперсионный анализ в контексте статистических методов.
Рубрика | Экономико-математическое моделирование |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 20.03.2010 |
Размер файла | 163,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Как следует из данных таблицы, при сравнении длительности психоза при терапии классическими нейролептиками и рисперидоном наблюдается практически двукратное сокращение продолжительности психотической симптоматики под влиянием рисполепта. Существенно, что на данную величину продолжительности психоза не влияли ни факторы порядкового номера приступов, ни характер картины ведущего синдрома. Иначе говоря, длительность психоза определялась исключительно фактором терапии, т.е. зависела от типа применяемого препарата безотносительно порядкового номера приступа, продолжительности заболевания и характера ведущего психопатологического синдрома.
С целью подтверждения полученных закономерностей был проведен двухфакторный дисперсионный анализ. При этом поочередно учитывалось взаимодействие фактора терапии и порядкового номера приступа (1-й этап) и взаимодействие фактора терапии и характера ведущего синдрома (2-й этап). Результаты дисперсионного анализа подтвердили влияние фактора терапии на величину длительности психоза (F=18,8) при отсутствии влияния фактора номера приступа (F=2,5) и фактора типа психопатологического синдрома (F=1,7). Немаловажно, что совместное влияние фактора терапии и номера приступа на величину длительности психоза также отсутствовало, равно как и совместное влияние фактора терапии и фактора психопатологического синдрома.
Таким образом, результаты дисперсионного анализа подтвердили влияние только фактора применяемого нейролептика. Рисполепт однозначно приводил к сокращению длительности психотической симптоматики по сравнению с традиционными нейролептиками примерно в 2 раза. Принципиально, что этот эффект был достигнут, несмотря на пероральный прием рисполепта, тогда как классические нейролептики применялись у большей части больных парентерально /10/.
2.8 Снование фасонной пряжи с ровничным эффектом
В Костромском Государственном технологическом университете разработана новая структура фасонной нити с переменными геометрическими параметрами. В связи с этим возникает проблема переработки фасонной пряжи в приготовительном производстве. Данное исследование посвящалось процессу снования по вопросам: выбор типа натяжного устройства, дающего минимальный разброс натяжения и выравнивание натяжения, нитей различной линейной плотности по ширине сновального вала.
Объект исследования - льняная фасонная нить четырех вариантов линейной плотности от 140 до 205 текса. Исследовалась работа натяжных приборов трех типов: фарфорового шайбового, двухзонного НС-1П и однозонного НС-1П. Экспериментальное исследование натяжения снующихся нитей производилось на сновальной машине СП-140-3Л. Скорость снования, масса тормозных шайб соответствовали технологическим параметрам снования пряжи.
Для исследования зависимости натяжения фасонной нити от геометрических параметров при сновании проведен анализ для двух факторов: X1 - диаметр эффекта, X2 - длина эффекта. Выходными параметрами являются натяжение Y1 и колебание натяжения Y2.
Полученные уравнения регрессии адекватны экспериментальным данным при уровне значимости 0,95, так как расчетный критерий Фишера для всех уравнений меньше табличного.
Для определения степени влияния факторов Х1 и Х2 на параметры Y1 и Y2 проведен дисперсионный анализ, который показал, что большее влияние на уровень и колебание натяжения оказывает диаметр эффекта.
Сравнительный анализ полученных тензограмм показал, что минимальный разброс натяжения при сновании данной пряжи обеспечивает двухзонный натяжной прибор НС-1П.
Установлено, что с ростом линейной плотности от 105 до 205 текс прибор НС-1П дает приращение уровня натяжения лишь на 23%, в то время как фарфоровый шайбовый - на 37 %, однозонный НС-1П на 53 %.
При формировании сновальных валов, включающих в себя фасонные и "гладкие" нити, необходима индивидуальная настройка натяжного прибора традиционным методом /11/.
2.9 Сопутствующая патология при полной утрате зубов у лиц пожилого и старческого возраста
Изучены эпидемиологически полная утрата зубов и сопутствующая патология пожилого населения, проживающего в домах престарелых на территории Чувашии. Обследование проводилось путем стоматологического осмотра и заполнения статистических карт 784 человек. Результаты анализа показали высокий процент полной утраты зубов, усугубляющейся общей патологией организма. Это характеризует осмотренную категорию населения как группу повышенного стоматологического риска и требует пересмотра всей системы стоматологического обслуживания их.
У пожилых людей уровень заболеваемости в два раза, а в старческом возрасте в шесть раз выше в сравнении с уровнем заболеваемости лиц более молодых возрастов.
Основными заболеваниями лиц пожилого и старческого возраста являются болезни органов кровообращения, нервной системы и органов чувств, органов дыхания, органов пищеварения, костей и органов движения, новообразования и травмы.
Цель исследования - разработка и получение информации о сопутствующих заболеваниях, эффективности зубопротезирования и нуждаемости в ортопедическом лечении лиц пожилого и старческого возраста с полной потерей зубов.
Всего было обследовано 784 человека в возрасте от 45 до 90 лет. Соотношение женщин и мужчин 2,8:1.
Оценка статистической связи с помощью коэффициента корреляции рангов Пирсона позволила установить взаимное влияние отсутствия зубов на сопутствующую заболеваемость с уровнем надежности р=0,0005. Пожилые пациенты с полной потерей зубов страдают болезнями, свойственными старости, а именно, атеросклерозом сосудов головного мозга и гипертонической болезнью.
Дисперсионный анализ показал, что в изучаемых условиях определяющую роль играет специфика болезни. Роль нозологических форм в различных возрастных периодах колеблется в пределах 52--60 %. Наибольшее статистически достоверное влияние на отсутствие зубов оказывают болезни органов пищеварения и сахарный диабет.
В целом группа больных в возрасте 75-89 лет характеризовалась большим числом патологических заболеваний.
В этом исследовании было проведено сравнительное изучение частоты распространения сопутствующей патологии среди пациентов с полной утратой зубов пожилого и старческого возраста, проживающих в домах престарелых. Выявлен высокий процент отсутствия зубов среди лиц этой возрастной категории. У пациентов с полной адентией наблюдается характерная для этого возраста сопутствующая патология. Наиболее часто среди обследованных лиц встречались атеросклероз и гипертония. Статистически достоверно влияние на состояние полости рта таких заболеваний, как болезни желудочно-кишечного тракта и сахарный диабет, доля остальных нозоологических форм оказалась в пределах 52--60 %. Применение дисперсионного анализа не подтвердили значимой роли пола и местожительства на показатели состояния полости рта.
Таким образом, в заключении следует отметить, что анализ распределения сопутствующих заболеваний у лиц с полным отсутствием зубов в пожилом и старческом возрасте показал, что эта категория граждан относится к особой группе населения, которая должна получать адекватную стоматологическую помощь в рамках существующих стоматологических систем.
3 Дисперсионный анализ в контексте статистических методов
Статистические методы анализа - это методология измерения результатов деятельности человека, то есть перевода качественных характеристик в количественные.
Основные этапы при проведении статистического анализа:
- содержательный анализ исследуемого объекта, системы или процесса. На этом этапе определяется набор входных и выходных параметров (X1 ,..., Xp; Y1 ,..., Yq);
- составление плана сбора исходных данных - значений входных переменных (X1,...,Xp), числа наблюдений n. Этот этап выполняется при активном планировании эксперимента.
- получение исходных данных и ввод их в компьютер. На этом этапе формируются массивы чисел (x1i ,..., xpi ; y1i ,..., yqi), i=1,..., n, где n - объем выборки.
- первичная статистическая обработка данных. На данном этапе формируется статистическое описание рассматриваемых параметров:
а) построение и анализ статистических зависимостей;
б) корреляционный анализ предназначен для оценивания значимости влияния факторов (X1,...,Xp) на отклик Y;
в) дисперсионный анализ используется для оценивания влияния на отклик Y неколичественных факторов (X1,...,Xp) с целью выбора среди них наиболее важных;
г) регрессионный анализ предназначен для определения аналитической зависимости отклика Y от количественных факторов X;
- интерпретация результатов в терминах поставленной задачи /13/.
В таблице 3.1 приведены статистические методы, с помощью которых решаются аналитические задачи. В соответствующих ячейках таблицы находятся частоты применения статистических методов:
- метка «-» - метод не применяется;
- метка «+» - метод применяется;
- метка «++» - метод широко применяется;
- метка «+++» - применение метода представляет особый интерес /14/.
Дисперсионный анализ подобно t-критерию Стьюдента, позволяет оценить различия между выборочными средними; однако, в отличие от t-критерия, в нем нет ограничений на количество сравниваемых средних. Таким образом, вместо того, чтобы поставить вопрос о различии двух выборочных средних, можно оценить, различаются ли два, три четыре, пять или k средних.
Дисперсионный анализ позволяет иметь дело с двумя или более независимыми переменными (признаками, факторами) одновременно, оценивая не только эффект каждой из них по отдельности, но и эффекты взаимодействия между ними /15/.
Таблица 3.1 - Применение статистических методов при решении аналитических задач
Аналитические задачи, возникающие в сфере бизнеса, финансов и управления |
Методы описательнойстатистики |
Методы поверки статистических гипотез |
Методы регрессионного анализа |
Методы дисперсионного анализа |
Методы анализа категории альных данных |
Методы многомерного анализа |
Методы дискриминантного анализа |
Методы кластер-ного анализа |
Методы анализаь выжива-емости |
Методы анализа и прогноза временных рядов |
|
Задачи горизонталь-ного (временного) анализа |
++ |
+ |
- |
+ |
+ |
- |
- |
- |
- |
- |
|
Задачи вертикального (структурного) анализа |
++ |
- |
- |
+ |
++ |
++ |
+ |
+ |
- |
- |
|
Задачи трендов анализа и прогноза |
++ |
- |
+++ |
++ |
- |
- |
- |
- |
++ |
+++ |
|
Задачи анализа относительных показателей |
++ |
+ |
+ |
- |
+ |
+++ |
++ |
++ |
- |
++ |
|
Задачи сравнительногоного) анализа |
++ |
- |
+ |
+ |
++ |
+++ |
++ |
++ |
- |
+ |
|
Задачи факторного анализа |
+ |
+ |
++ |
- |
++ |
+++ |
+ |
++ |
- |
+ |
К большинству сложных систем применим принцип Парето, согласно которому 20 % факторов определяют свойства системы на 80 %. Поэтому первоочередной задачей исследователя имитационной модели является отсеивание несущественных факторов, позволяющее уменьшить размерность задачи оптимизации модели.
Анализ дисперсии оценивает отклонение наблюдений от общего среднего. Затем вариация разбивается на части, каждая из которых имеет свою причину. Остаточная часть вариации, которую не удается связать с условиями эксперимента, считается его случайной ошибкой. Для подтверждения значимости используется специальный тест - F-статистика.
Дисперсионный анализ определяет, есть ли эффект. Регрессионный анализ позволяет прогнозировать отклик (значение целевой функции) в некоторой точке пространства параметров. Непосредственной задачей регрессионного анализа является оценка коэффициентов регрессии /16/.
Слишком большая размерность выборок затрудняет проведение статистических анализов, поэтому имеет смысл уменьшить размер выборки.
Применив дисперсионный анализ можно выявить значимость влияния различных факторов на исследуемую переменную. Если влияние фактора окажется несущественным, то этот фактор можно исключить из дальнейшей обработки.
3.1 Векторные авторегрессии
Макроэконометристы должны уметь решать четыре логически отличающиеся задачи:
- описание данных;
- макроэкономический прогноз;
- структурный вывод;
- анализ политики.
Описание данных означает описание свойств одного или нескольких временных рядов и сообщение этих свойств широкому кругу экономистов. Макроэкономический прогноз означает предсказание курса экономики, обычно на два-три года или меньше (главным образом потому, что прогнозировать на более длинные горизонты слишком трудно). Структурный вывод означает проверку того, соответствуют ли макроэкономические данные конкретной экономической теории. Макроэконометрический анализ политики происходит по нескольким направлениям: с одной стороны, оценивается влияние на экономику гипотетического изменения инструментов политики (например налоговой ставки или краткосрочной процентной ставки), с другой стороны, оценивается влияние изменения правил политики (например переход к новому режиму монетарной политики). Эмпирический макроэкономический исследовательский проект может включать одну или несколько из этих четырех задач. Каждая задача должна быть решена таким образом, чтобы были учтены корреляции между рядами по времени.
В 1970-х годах эти задачи решались с использованием разнообразных методов, которые, если оценить их с современных позиций, были неадекватны по нескольким причинам. Чтобы описать динамику отдельного ряда, достаточно было просто использовать одномерные модели временных рядов, а чтобы описать совместную динамику двух рядов - спектральный анализ. Однако отсутствовал общепринятый язык, пригодный для систематического описания совместных динамических свойств нескольких временных рядов. Экономические прогнозы делались либо с использованием упрощенных моделей авторегрессии -- скользящего среднего (ARMA), либо с использованием популярных в то время больших структурных эконометрических моделей. Структурный вывод основывался либо на малых моделях с одним уравнением, либо на больших моделях, идентификация в которых достигалась за счет плохо обоснованных исключающих ограничений, и которые обычно не включали ожидания. Анализ политики на основе структурных моделей зависел от этих идентифицирующих предположений.
Наконец, рост цен в 1970-е годы рассматривался многими как серьезная неудача больших моделей, которые в то время использовались для выработки политических рекомендаций. То есть это было подходящее время для появления новой макроэконометрической конструкции, которая могла бы решить эти многочисленные проблемы.
В 1980 году была создана такая конструкция - векторные авторегрессии (VAR). На первый взгляд, VAR - не более, чем обобщение одномерной авторегрессии на многомерный случай, и каждое уравнение в VAR - не более, чем обычная регрессия по методу наименьших квадратов одной переменной на запаздывающие значения себя и других переменных в VAR. Но этот вроде бы простой инструмент дал возможность систематически и внутренне согласованно уловить богатую динамику многомерных временных рядов, а статистический инструментарий, который сопутствует VAR, оказался удобным и, что очень важно, его было легко интерпретировать.
Выделяют три различных VAR-модели:
- приведенная форма VAR;
- рекурсивная VAR;
- структурная VAR.
Все три являются динамическими линейными моделями, которые связывают текущие и прошлые значения вектора Yt n-мерного временного ряда. Приведенная форма и рекурсивные VAR - это статистические модели, которые не используют никакие экономические соображения за исключением выбора переменных. Эти VAR используются для описания данных и прогноза. Структурная VAR включает ограничения, полученные из макроэкономической теории, и эта VAR используется для структурного вывода и анализа политики.
Приведенная форма VAR выражает Yt в виде распределенного лага прошлых значений плюс серийно некоррелированный член ошибки, то есть обобщает одномерную авторегрессию на случай векторов. Математически приведенная форма модели VAR - это система n уравнений, которые можно записать в матричной форме следующим образом:
(17)
где ? - это n? l вектор констант;
A1, A2, ..., Ap - это n? n матрицы коэффициентов;
?t, - это n?l вектор серийно некоррелированных ошибок, о которых предполагается, что они имеют среднее ноль и матрицу ковариаций .
Ошибки ?t, в (17) - это неожиданная динамика в Yt, остающаяся после учета линейного распределенного лага прошлых значений.
Оценить параметры приведенной формы VAR легко. Каждое из уравнений содержит одни и те же регрессоры (Yt-1,...,Yt-p), и нет взаимных ограничений между уравнениями. Таким образом, эффективная оценка (метод максимального правдоподобия с полной информацией) упрощается до обычного МНК, примененного к каждому из уравнений. Матрицу ковариаций ошибок можно состоятельно оценить выборочной ковариационной матрицей полученных из МНК остатков.
Единственная тонкость - определить длину лага p, но это можно сделать, используя информационный критерий, такой как AIC или BIC.
На уровне матричных уравнений рекурсивная и структурная VAR выглядят одинаково. Эти две модели VAR учитывают в явном виде одновременные взаимодействия между элементами Yt, что сводится к добавлению одновременного члена к правой части уравнения (17). Соответственно, рекурсивная и структурная VAR обе представляются в следующем общем виде:
(18)
где ? - вектор констант;
B0,..., Bp - матрицы;
?t -- ошибки.
Наличие в уравнении матрицы B0 означает возможность одновременного взаимодействия между n переменными; то есть B0 позволяет сделать так, чтобы эти переменные, относящиеся к одному моменту времени, определялись совместно.
Рекурсивную VAR можно оценить двумя способами. Рекурсивная структура дает набор рекурсивных уравнений, которые можно оценить с помощью МНК. Эквивалентный способ оценивания заключается в том, что уравнения приведенной формы (17), рассматриваемые как система, умножаются слева на нижнюю треугольную матрицу.
Метод оценивания структурной VAR зависит от того, как именно идентифицирована B0. Подход с частичной информацией влечет использование методов оценивания для отдельного уравнения, таких как двухшаговый метод наименьших квадратов. Подход с полной информацией влечет использование методов оценивания для нескольких уравнений, таких как трехшаговый метод наименьших квадратов.
Необходимо помнить о множественности различных типов VAR. Приведенная форма VAR единственна. Данному порядку переменных в Yt соответствует единственная рекурсивная VAR, но всего имеется n! таких порядков, т.е. n! различных рекурсивных VAR. Количество структурных VAR - то есть наборов предположений, которые идентифицируют одновременные взаимосвязи между переменными, - ограничено только изобретательностью исследователя.
Поскольку матрицы оцененных коэффициентов VAR затруднительно интерпретировать непосредственно, результаты оценивания VAR обычно представляют некоторыми функциями этих матриц. К таким статистикам разложения ошибки прогноза.
Разложения дисперсии ошибки прогноза вычисляются в основном для рекурсивных или структурных систем. Такое разложение дисперсии показывает, насколько ошибка в j-м уравнении важна для объяснения неожиданных изменений i-й переменной. Когда ошибки VAR некоррелированы по уравнениям, дисперсию ошибки прогноза на h периодов вперед можно записать как сумму компонентов, являющихся результатом каждой из этих ошибок /17/.
3.2 Факторный анализ
В современной статистике под факторным анализом понимают совокупность методов, которые на основе реально существующих связей признаков (или объектов) позволяют выявлять латентные обобщающие характеристики организационной структуры и механизма развития изучаемых явлений и процессов.
Понятие латентности в определении ключевое. Оно означает неявность характеристик, раскрываемых при помощи методов факторного анализа. Вначале имеется дело с набором элементарных признаков Xj, их взаимодействие предполагает наличие определенных причин, особенных условий, т.е. существование некоторых скрытых факторов. Последние устанавливаются в результате обобщения элементарных признаков и выступают как интегрированные характеристики, или признаки, но более высокого уровня. Естественно, что коррелировать могут не только тривиальные признаки Xj, но и сами наблюдаемые объекты Ni поэтому поиск латентных факторов теоретически возможен как по признаковым, так и по объектным данным.
Если объекты характеризуются достаточно большим числом элементарных признаков (m > 3), то логично и другое предположение - о существовании плотных скоплений точек (признаков) в пространстве n объектов. При этом новые оси обобщают уже не признаки Xj, а объекты ni, соответственно и латентные факторы Fr будут распознаны по составу наблюдаемых объектов:
Fr = c1n1 + c2n2 + ... + cNnN,
где ci - вес объекта ni в факторе Fr.
В зависимости от того, какой из рассмотренных выше тип корреляционной связи - элементарных признаков или наблюдаемых объектов - исследуется в факторном анализе, различают R и Q - технические приемы обработки данных.
Название R-техники носит объемный анализ данных по m признакам, в результате него получают r линейных комбинаций (групп) признаков: Fr=f(Xj), (r=1..m). Анализ по данным о близости (связи) n наблюдаемых объектов называется Q-техникой и позволяет определять r линейных комбинаций (групп) объектов:
F=f(ni), (i = l .. N)
В настоящее время на практике более 90% задач решается при помощи R-техники.
Набор методов факторного анализа в настоящее время достаточно велик, насчитывает десятки различных подходов и приемов обработки данных. Чтобы в исследованиях ориентироваться на правильный выбор методов, необходимо представлять их особенности. Разделим все методы факторного анализа на несколько классификационных групп:
- Метод главных компонент. Строго говоря, его не относят к факторному анализу, хотя он имеет с ним много общего. Специфическим является, во-первых, то, что в ходе вычислительных процедур одновременно получают все главные компоненты и их число первоначально равно числу элементарных признаков. Во-вторых, постулируется возможность полного разложения дисперсии элементарных признаков, другими словами, ее полное объяснение через латентные факторы (обобщенные признаки).
- Методы факторного анализа. Дисперсия элементарных признаков здесь объясняется не в полном объеме, признается, что часть дисперсии остается нераспознанной как характерность. Факторы обычно выделяются последовательно: первый, объясняющий наибольшую долю вариации элементарных признаков, затем второй, объясняющий меньшую, вторую после первого латентного фактора часть дисперсии, третий и т.д. Процесс выделения факторов может быть прерван на любом шаге, если принято решение о достаточности доли объясненной дисперсии элементарных признаков или с учетом интерпретируемости латентных факторов.
Методы факторного анализа целесообразно разделить дополнительно на два класса: упрощенные и современные аппроксимирующие методы.
Простые методы факторного анализа в основном связаны с начальными теоретическими разработками. Они имеют ограниченные возможности в выделении латентных факторов и аппроксимации факторных решений. К ним относятся:
- однофакторная модель. Она позволяет выделить только один генеральный латентный и один характерный факторы. Для возможно существующих других латентных факторов делается предположение об их незначимости;
- бифакторная модель. Допускает влияние на вариацию элементарных признаков не одного, а нескольких латентных факторов (обычно двух) и одного характерного фактора;
- центроидный метод. В нем корреляции между переменными рассматриваются как пучок векторов, а латентный фактор геометрически представляется как уравновешивающий вектор, проходящий через центр этого пучка. : Метод позволяет выделять несколько латентных и характерные факторы, впервые появляется возможность соотносить факторное решение с исходными данными, т.е. в простейшем виде решать задачу аппроксимации.
Современные аппроксимирующие методы часто предполагают, что первое, приближенное решение уже найдено каким либо из способов, последующими шагами это решение оптимизируется. Методы отличаются сложностью вычислений. К этим методам относятся:
- групповой метод. Решение базируется на предварительно отобранных каким-либо образом группах элементарных признаков;
- метод главных факторов. Наиболее близок методу главных компонент, отличие заключается в предположении о существовании характерностей;
- метод максимального правдоподобия, минимальных остатков, а-факторного анализа канонического факторного анализа, все оптимизирующие.
Эти методы позволяют последовательно улучшить предварительно найденные решения на основе использования статистических приемов оценивания случайной величины или статистических критериев, предполагают большой объем трудоемких вычислений. Наиболее перспективным и удобным для работы в этой группе признается метод максимального правдоподобия.
Основной задачей, которую решают разнообразными методами факторного анализа, включая и метод главных компонент, является сжатие информации, переход от множества значений по m элементарным признакам с объемом информации n х m к ограниченному множеству элементов матрицы факторного отображения (m х r) или матрицы значений латентных факторов для каждого наблюдаемого объекта размерностью n х r, причем обычно r < m. Методы факторного анализа позволяют также визуализировать структуру изучаемых явлений и процессов, а это значит определять их состояние и прогнозировать развитие. Наконец, данные факторного анализа дают основания для идентификации объекта, т.е. решения задачи распознавания образа.
Методы факторного анализа обладают свойствами, весьма привлекательными для их использования в составе других статистических методов, наиболее часто в корреляционно-регрессионном анализе, кластерном анализе, многомерном шкалировании и др. /18/.
3.3 Парная регрессия. Вероятностная природа регрессионных моделей
Если рассмотреть задачу анализа расходов на питание в группах с одинаковыми доходами, например в $10.000(x), то это детерминированная величина. А вот Y - доля этих денег, затрачиваемая на питание - случайна и может меняться от года к году. Поэтому для каждого i-го индивида:
где еi - случайная ошибка;
б и в - константы (теоретически), хотя могут меняться от модели к модели.
Предпосылки для парной регрессии:
- X и Y связаны линейно;
- Х - неслучайная переменная с фиксированными значениями;
- е - ошибки нормально распределены N(0,у2);
- ;
-
На рисунке 3.1 представлена модель парной регрессии.
Рисунок 3.1 - Модель парной регрессии
Эти предпосылки описывают классическую линейную регрессионную модель.
Если ошибка имеет ненулевое среднее, исходная модель будет эквивалентна новой модели и другим свободным членом, но с нулевым средним для ошибки.
Если выполняются предпосылки, то МНК оценки и являются эффективными линейными несмещенными оценками
Если обозначить:
то что математическое ожидание и дисперсии коэффициентов и будут следующие:
Ковариация коэффициентов:
Если то и распределены тоже нормально:
Отсюда следует, что:
- Вариация в полностью определяется вариацией е;
- Чем выше дисперсия X - тем лучше оценка в.
Полная дисперсия определяется по формуле:
Дисперсия отклонений в таком виде - несмещенная оценка и называется стандартной ошибкой регрессии. N-2 - может быть интерпретировано как число степеней свободы.
Анализ отклонений от линии регрессии может представить полезную меру того, насколько оцененная регрессия отражает реальные данные. Хорошая регрессия та, которая объясняет значительную долю дисперсии Y и наоборот плохая регрессия не отслеживает большую часть колебаний исходных данных. Интуитивно ясно, что всякая дополнительная информация позволит улучшить модель, то есть уменьшить необъясненную долю вариации Y. Для анализа регрессионной модели проводят разложение дисперсии на составляющие, определяют коэффициент детерминации R2.
Отношение двух дисперсий распределено по F-распределению, т. е. если проверить на статистическую значимость отличия дисперсии модели от дисперсии остатков, можно сделать вывод о значимости R2.
Проверка гипотезы о равенстве дисперсий этих двух выборок:
Если гипотеза Н0 (о равенстве дисперсий нескольких выборок) верна, t имеет F-распределение с (m1,m2)=(n1-1,n2-1) степенями свободы.
Посчитав F - отношение как отношение двух дисперсий и сравнив его с табличным значением, можно сделать вывод о статистической значимости R2 /2/, /19/.
Заключение
Современные приложения дисперсионного анализа охватывают широкий круг задач экономики, биологии и техники и трактуются обычно в терминах статистической теории выявления систематических различий между результатами непосредственных измерений, выполненных при тех или иных меняющихся условиях.
Благодаря автоматизации дисперсионного анализа исследователь может проводить различные статистические исследования с применение ЭВМ, затрачивая при этом меньше времени и усилий на расчеты данных. В настоящее время существует множество пакетов прикладных программ, в которых реализован аппарат дисперсионного анализа. Наиболее распространенными являются такие программные продукты как:
- MS Excel;
- Statistica;
- Stadia;
- SPSS.
В современных статистических программных продуктах реализованы большинство статистических методов. С развитием алгоритмических языков программирования стало возможным создавать дополнительные блоки по обработке статистических данных.
Дисперсионный анализ является мощным современным статистическим методом обработки и анализа экспериментальных данных в психологии, биологии, медицине и других науках. Он очень тесно связан с конкретной методологией планирования и проведения экспериментальных исследований. Дисперсионный анализ применяется во всех областях научных исследований, где необходимо проанализировать влияние различных факторов на исследуемую переменную.
Список используемых источников
1 Кремер Н.Ш. Теория вероятности и математическая статистика. М.: Юнити - Дана, 2002.-343с.
2 Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 2003.-523с.
3 www.sutd.ru
4 www.conf.mitme.ru
5 www.pedklin.ru
6 www.webcenter.ru
7 www.infections.ru
8 www.encycl.yandex.ru
9 www.infosport.ru
10 www.medtrust.ru
11 www.flax.net.ru
12 www.jdc.org.il
13 www.big.spb.ru
14 www.bizcom.ru
15 Гусев А.Н. Дисперсионный анализ в экспериментальной психологии. - М.: Учебно-методический коллектор «Психология», 2000.-136с.
16 www.gpss.ru
17 www.econometrics.exponenta.ru
18 www.optimizer.by.ru
19 www2.econ.msu.ru
Подобные документы
Общая характеристика однофакторного дисперсионного анализа. Сущность двухфакторного дисперсионного анализа при перекрестной классификации факторов. Особенности дисперсионного анализа в системе MINITAB и формы выполнения работы в программе MS Excel.
методичка [440,7 K], добавлен 15.12.2008Дисперсионный анализ - исследование причин отклонений фактических затрат от нормативных. Схемы организации исходных данных с двумя и более факторами. Формулы расчета межгрупповой и внутригрупповой дисперсии. Задачи двухфакторного дисперсионного анализа.
курсовая работа [1,0 M], добавлен 16.01.2013Общее понятие, основные цели и задачи дисперсионного анализа. Компоненты изменчивости и методы их определения. Однофакторный дисперсионный анализ, его графическое изображение и области применения. Перечень формул вычисления для двухфакторного анализа.
презентация [576,2 K], добавлен 22.03.2015Равенство нулю математического ожидания случайной компоненты. Знакомство со статистическим методом однофакторного дисперсионного анализа, а также с реализацией его на ПК в различных программах. Сравнение IBM SPSS Statistics 20 и Microsoft Office 2013.
курсовая работа [1,3 M], добавлен 29.11.2014Анализ структуры взаимосвязей признаков по данным трехмерной таблицы сопряженности с помощью логлинейных моделей. Непараметрические методы проверки гипотез об однородности распределения двух совокупностей. Модели двухфакторного дисперсионного анализа.
отчет по практике [388,6 K], добавлен 01.10.2013Изучение показателей качества конструкционного газобетона как случайных величин. Проведение модульного эксперимента и дисперсионного анализа с целью определения достоверности влияния факторов на поведение выбранных показателей качества данной продукции.
курсовая работа [342,3 K], добавлен 08.05.2012Способы описания случайной величины, основные распределения и их генерация в Excel. Дисперсионный анализ как особая форма анализа регрессии. Применение элементов линейной алгебры в моделировании экономических процессов и решение транспортной задачи.
курс лекций [1,6 M], добавлен 05.05.2010Изучение сущности однофакторного дисперсионного анализа. Методы разбиения суммы квадратов и проверки значимости. Исследование вопроса планирования и организации отдельных этапов научных исследований, содержания и этапов научно-исследовательских работ.
курсовая работа [148,0 K], добавлен 27.12.2012Получение функции отклика показателя качества Y2 и формирование выборки объемом 15 и более 60. Зависимость выбранного Y от одного из факторов Х. Дисперсионный анализ и планирование эксперимента. Проведение корреляционного и регрессионного анализа.
курсовая работа [827,2 K], добавлен 19.06.2012Изучение и отработка навыков математического моделирования стохастических процессов; исследование реальных моделей и систем с помощью двух типов моделей: аналитических и имитационных. Основные методы анализа: дисперсионный, корреляционный, регрессионный.
курсовая работа [701,2 K], добавлен 19.01.2016