Основы научных исследований
Требования, виды и последовательность организации эксперимента. Статистическая вероятность и распределения случайных величин. Параметры эмпирических распределений и проверка нормальности распределения. Основы корреляционного и регрессионного анализов.
Рубрика | Экономико-математическое моделирование |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 04.02.2016 |
Размер файла | 666,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
В отличие от rух, множественный коэффициент корреляции изменяется в интервале
Это связано с тем, что коэффициенты парной корреляции обычно бывают разных знаков и для предотвращения самокомпенсации они возводятся во вторые степени, а из их суммы извлекается квадратный корень.
С помощью множественного коэффициента корреляции нельзя установить, является положительной или отрицательной корреляция между факторами и откликом. Только в том частном случае, когда все коэффициенты парной корреляции имеют одинаковые знаки, этот знак можно отнести и к множественной корреляции.
В простейшем случае трех переменных коэффициент множественной корреляции имеет вид
,
где - коэффициент парной корреляции между факторами.
Если факторы между собой не коррелированны, то (13.5) упрощается
(13.6)
Коэффициент множественной корреляции используется и как показатель полноты регрессионной модели. По нему можно судить, достаточно ли введено факторов в эксперимент. Если не все существенно влияющие факторы учтены, то коэффициент множественной корреляции, естественно, будет небольшим. Если все существенно влияющие факторы учтены, то этот коэффициент будет близким к 1. Практически модель считается полной, если ее коэффициент множественной корреляции >0,7. Если он меньше этой величины, но не меньше 0,5 то это говорит только о наличии корреляционной связи между факторами и откликом, но не о полноте модели. А поскольку от полноты модели зависит ее работоспособность (см. лекцию №17), то нужно стремится еще при планировании эксперимента ввести в него все существенные факторы.
13.3 Коэффициент частной корреляции
Показывает интенсивность связи между двумя переменными при фиксировании или исключении влияния остальных переменных.
Пусть имеет место множественная корреляция. Если случайные величины x1 и x2 тесно коррелированны друг с другом и отклик у зависит от x1, то у будет также коррелировать и с x2. При этом возможно, что между у и x2 нет причинной связи и корреляция косвенная, через x1. Поэтому необходимо исследовать частную корреляцию между у и x1 при исключении влияния x2 на у. Эта задача решается при помощи вычисления коэффициента частной корреляции ry1.2:
(13.7)
Т.о. вычисление коэффициентов частной корреляции сводится к вычислению коэффициентов парной корреляции.
По (13.7) можно установить соотношения между этими коэффициентами. Если ry2 = r12 = 0, то ry1.2 = ry1. Если r12 = 0, то ry1.2 по модулю будет больше ry1, а ry2.1 - больше ry2. Т.о. с уменьшением связи между x1 и x2 будет усиливаться коэффициент частной корреляции по сравнению с соответствующим коэффициентом парной корреляции. Это увеличение тем сильнее, чем больше по модулю ry1 или ry2. Если ry2= 0, то ry1.2 по модулю будет больше ry1 и ry2.1 больше - ry2, если ry1=0. Если коэффициенты корреляции имеют противоположные знаки, то всегда по модулю ry1.2 будет больше ry1.
В общем случае коэффициент частной корреляции любого фактора может быть найден по формуле:
(13.8)
При вычислениях по (13.8) сначала нужно найти коэффициенты парной корреляции, а затем приступать к определению коэффициентов корреляции более высокого порядка.
14.1 Постановка задачи регрессионного анализа
Основное назначение регрессионного анализа (РА) - получение по экспериментальным данным зависимостей, аппроксимирующих эти данные в виде алгебраических формул. Эти зависимости называются регрессионными моделями объектов исследования и в общем виде выглядят следующим образом
,
где е - помеха эксперимента.
Ограничимся рассмотрением только линейных по параметрам регрессионных моделей
(14.1)
где - среднее значение отклика;
а0 - свободный член;
аj - коэффициент регрессии при j-том факторе;
fkj - k-тая базисная функция при j-том факторе;
qj - число базисных функций j-того фактора;
n - число факторов.
Например:
В данном примере переменная аппроксимирована полиномом 2-й степени, скорость деформирования - логарифмической функцией, а температура - степенной.
Несмотря на наличие нелинейных базисных функций, зависимость (14.1) является линейной по параметрам, поскольку параметры регрессии - коэффициенты регрессии - входят в нее в первой степени. Однако благодаря наличию базисных функций такой моделью можно аппроксимировать и нелинейные зависимости.
Система базисных функций выбирается до проведения РА на основе априорной информации. Наиболее часто используются в качестве базисных функций полиномиальные переменные:
Ї 1-й степени: f1(x1) = x1; f2(x2) = x2... fk(xn) = xn;
Ї 2-й степени: f1(x1) = x12; f2(x2) = x22... fk(xn) = xn2 и т.д.
Однако применяются и другие элементарные функции, а также полиномы Чебышева, Лежандра и т.п.
Теоретически в РА считается, что вид модели (14.1) известен и нужно по экспериментальным данным найти неизвестные коэффициенты регрессии и свободный член. Практически указать заранее форму будущей регрессии (т.е. набор базисных функций), адекватной объекту исследования, можно только в редких случаях. Обычно адекватная регрессия отыскивается методом проб и ошибок. При этом используется принцип постепенного усложнения модели. Вначале применяется простейшая линейная модель
,
и если она оказывается не адекватной, то порядок полинома увеличивается или же используются базисные функции иного вида.
14.2 Основные предпосылки регрессионного анализа
Методика РА создана с использованием некоторых предпосылок. Если они не выполняются, то корректное выполнение всех процедур РА приведет к неверным результатам. Поэтому при проведении РА необходимо обеспечить выполнение тех предпосылок, которые находятся под контролем исследователя, и проверить после проведения РА выполнение тех, которые от исследователя не зависят.
Всего имеется 5 основных предпосылок:
1. Помеха эксперимента е является случайной величиной с и . Постоянство дисперсии , называемой дисперсией воспроизводимости, означает, что интенсивность помехи не меняется при изменении значений факторов, т.е. величина не зависит от конкретного значения уi в эксперименте. Выполнение этого требования нельзя обеспечить, поскольку оно определяется природой исследуемого объекта. Но выполнение его можно проверить статистическим анализом результатов эксперимента.
2. Помеха эксперимента подчиняется нормальному распределению с параметрами: (в соответствии с 1-й предпосылкой). Проверяется эта предпосылка после проведения эксперимента по распределению откликов в опытах или по специально поставленному опыту с фиксированными факторами и многократным дублированием. 3. Значения помехи эксперимента е в различных опытах не коррелированны. В активных экспериментах, где факторы управляемы, это требование обеспечивается рандомизацией опытов. Для этого порядок проведения опытов выбирают случайным образом. Рандомизация теоретически не может гарантировать полную не коррелированность помехи е, но на практике считается, что этого достаточно. В пассивных экспериментах, где факторы изменяются произвольным образом, для обеспечения данного требования необходимо временной интервал съема данных делать намного, на несколько порядков большим длительности действия исследуемых факторов.
4. Ошибка измерения или установки факторов xi равна нулю. Это требование вытекает из самого определения регрессии как односторонней стохастической связи, но оно не может быть выполнено абсолютным образом. Его понимают так: вклад, вносимый случайными ошибками измерения или установки факторов в дисперсию воспроизводимости должен быть пренебрежимо мал по сравнению со вкладом других причин, образующих помеху е. Поэтому практически требуется, чтобы факторы измерялись с точностью, значительно превышающей корень квадратный из дисперсии эксперимента .
5. Факторы xi должны быть взаимно не коррелированными. Выполнение этого требования необходимо для получения раздельных оценок коэффициентов регрессии с целью получения возможности изучения влияния каждого фактора на отклик отдельно. Невыполнение этого требования, кроме смешивания эффектов, приводит также к большим ошибкам вычислительного характера при оценивании коэффициентов регрессии.
В пассивных экспериментах выполнение этого требования проверяется расчетом парных коэффициентов корреляции между факторами после проведения опытов. Если окажется, что имеются > 0,4-0,5, то смешивание эффектов есть и модель не пригодна для изучения влияния каждого фактора на отклик отдельно (но может быть использована для расчетов их совместного влияния, хотя и с точностью существенно меньшей, чем точность эксперимента, по которому получена эта модель). Если > 0,8, то один из факторов (хi или хj) из модели можно исключить, повторив РА без этого фактора, и получить модель без смешивания эффектов.
В активных экспериментах выполнение данного требования можно обеспечить соответствующим выбором плана эксперимента. Если план обладает свойством ортогональности, то корреляция между факторами гарантированно отсутствует.
Особенно внимательно нужно относится к данному требованию при проведении модельных экспериментов. В этих случаях переменные всегда представляются в безразмерном виде, что даже при отсутствии корреляции между размерными параметрами процесса ведет к ее появлению между безразмерными. Например
Изменение параметра Н автоматически приводит к изменению всех безразмерных симплексов. Поэтому в модельных экспериментах нужно варьировать всеми размерными параметрами, хотя критериальное представление переменных позволяет варьировать n-k факторами, что и создает соблазн воспользоваться этой возможностью.
15.1 Метод наименьших квадратов
Пусть проведен однофакторный эксперимент, в котором исследована зависимость у от х. Установлено, что основные предпосылки регрессионного анализа выполняются. Требуется найти функцию регрессии .
Рассмотрим вначале простейший случай, когда эмпирическая зависимость может быть хорошо аппроксимирована линейной функцией
Задача линейного РА состоит в том, что, зная положение экспериментальных точек на плоскости ХОУ, так провести линию регрессии, чтобы ее отклонение от всех точек было минимальным, как это показано на рисунке 15.1.
Размещено на http://www.allbest.ru/
Рисунок 15.1 Линейная регрессия
При выборе линии регрессии можно, казалось бы, добиваться выполнения условия
,
т.е. чтобы сумма отклонений всех расчетных точек от экспериментальных была равна нулю. Но соблюдение этого условия не позволяет однозначно определить линию регрессии, т.к. все прямые, проходящие через точку с координатами , удовлетворяют этому условию.
Для однозначного выбора функции регрессии используется какая-нибудь естественная характеристика точности аппроксимации. Чаще всего используется дисперсия остатков
(15.1)
Следовательно, мерой отклонения расчетных точек от экспериментальных в этом случае является сумма квадратов отклонений. Очевидно, что прямая наилучшим образом будет аппроксимировать экспериментальные данные, если будет минимальной. Для этого нужно минимизировать функцию
(15.2)
Метод, основанный на минимизации суммы квадратов отклонений расчетных значений откликов от экспериментальных называется методом наименьших квадратов (МНК).
С его помощью отыскиваются такие значения а0 и аі, которые сводят к минимуму . Для этого вычисляются частные производные от (15.1) и приравниваются к нулю
(15.3)
Отсюда
(15.4)
Воспользовавшись правилом Крамера, получим
(15.5)
Свободный член можно определить и проще, воспользовавшись уравнением прямой линии в следующем виде
Отсюда
15.2 Нелинейный регрессионный анализ
Линейные по параметрам регрессионные модели можно использовать для аппроксимации нелинейных зависимостей путем их линеаризации с помощью базисных функций . Например, эмпирические точки достаточно хорошо укладываются на кривую обратной гиперболы (рис. 15.2а). Очевидно, что преобразованием независимой перемен-ной перейти к линейной зависимости (рис.15.2б).
Размещено на http://www.allbest.ru/
Рисунок 15.2 Линеаризация нелинейной зависимости
Следовательно, линеаризация состоит в подборе подходящей базисной функции, превращающей нелинейную зависимость в линейную. Практически следует нанести эмпирические точки на плоскость ХОУ и оценить, какая из известных функций может аппроксимировать данную кривую. Затем осуществить соответствующее преобразование х или у.
Например, если подходящей аппроксимацией является логарифмическая функция, то или . Получим линейные зависимости
или
Далее проводится линейный регрессионный анализ и определяются а0 и а1. Затем осуществляется обратное преобразование: или и получается искомая нелинейная зависимость.
15.3 Множественный регрессионный анализ
При исследовании многофакторных зависимостей возникает необходимость во множественном регрессионном анализе (МРА). Как и в случае однофакторных зависимостей, для определения функции регрессии используется МНК. Однако при этом решение системы уравнений, дающее значения а0 и аi существенно затруднено их большим количеством - число уравнений в системе равно числу опытов эксперимента, а оно не может быть меньшим, чем d+1. Поэтому МРА осуществляется при помощи компьютеров, которые решают системы нормальных линейных уравнений одним из численных методов (например, методом Гаусса-Жордана).
Для ввода массива данных в компьютер он записывается в виде матрицы:
№ опыта |
х1 |
х2 |
х3 |
... |
хn |
|
1 |
||||||
2 |
||||||
3 |
||||||
|
||||||
N |
Расчет дает величины свободного члена и коэффициентов регрессии, а также величины их эмпирических дисперсий. Хорошие программы МРА дают сразу и значения t-критериев для каждого параметра. В результате получается регрессионная модель вида (если нет надобности в линеаризации)
Коэффициенты аi называются частными коэффициентами регрессии, т.к. характеризуют степень влияния каждого фактора на отклик у в отдельности (в идеале, когда нет корреляции между факторами).
Коэффициенты регрессии являются размерными величинами и их размерность связана с размерностью факторов. Поэтому их величина зависит не только от степени влияния данного фактора на отклик, но и от размерности фактора. Чтобы можно было сравнивать степень влияния каждого фактора, коэффициенты регрессии нормируют
(15.6)
где - среднее квадратичное отклонение i-го коэффициента регрессии;
- среднее квадратичное отклонение отклика.
В результате нормирования уравнение регрессии принимает вид
т.е. свободный член исчезает.
После проведения МРА обязательно необходимо выполнить отсеивание незначащих факторов по t-критериям каждого коэффициента регрессии, начиная с самого «слабого» фактора. После отсеивания каждого фактора МРА повторяется, т.к. оценки коэффициентов регрессии в результате отсеивания изменяются.
16.1 Статистическая обработка результатов эксперимента
Включает в себя определение дисперсии эксперимента, проверку постоянства дисперсии воспроизводимости и определение абсолютных и относительных погрешностей эксперимента.
Степень влияния „шума” на отклик в данном эксперименте, следовательно, его чистота, оцениваются по дисперсии эксперимента . При малых значениях доверительный интервал, в котором находится истинное значение отклика, будет узким, а при больших ? широким, что свидетельствует о низкой точности эксперимента (наличие сильных помех или не учтенных существенных факторов).
В зависимости от характера дублирования используется несколько способов оценивания дисперсии . Если все опыты осуществляются по одному разу (дублирование отсутствует), а один опыт (обычно в центре области изменения факторов) - n раз, то тогда
, (16.1)
где - j-е значение отклика в дублируемых опытах;
- среднее значение отклика в дублируемых опытах;
k - количество дублей в центре области изменения факторов.
В случае равномерного дублирования
(16.2)
где N - число опытов;
m - число дублей в каждом опыте;
yij - j-е значение дубля в i-том опыте;
- среднее значение отклика в i-то м опыте.
В общем случае неравномерного дублирования
(16.3)
где - число дублей в i-том опыте.
Первая предпосылка регрессионного анализа предполагает постоянство дисперсии воспроизводимости: = сonst. После проведения опытов, когда строчные дисперсии становятся известными, появляется возможность выяснить, обусловлены ли вариации случайными причинами, или же в каждом опыте дисперсии помех действительно различны.
В случае равномерного дублирования для этой цели используется критерий Кохрена
(16.4)
где - максимальная дисперсия в одном из опытов;
- табличное значение критерия Кохрена;
f = m-1 - число степеней свободы этого критерия.
Если условие (16.4) выполняется, то ряд дисперсий считается воспроизводимым (однородным).
При неравномерном дублировании однородность строчных дисперсий проверяется по критерию Бартлетта
(16.5)
где - число степеней свободы в i-том опыте.
Найденное по (16.5) значение сравнивается с критерием при заданном уровне значимости б и числе степеней свободы . Ряд дисперсий считается воспроизводимым, если:
.
Значение критерия Бартлетта по (16.5) всегда довольно сильно завышено. Поэтому если оно сравнимо с или немного его превышает, то необходимо провести его уточнение:
,
где поправочный коэффициент с равен
(16.6)
и снова сравнить с .
Абсолютная погрешность определения отклика в i-том опыте находится как доверительная оценка истинного значения случайной величины при неизвестной точности измерений
(16.7)
где - значение критерия Стьюдента при уровне значимости б и числе степеней свободы .
Следует учитывать, что этот критерий двухсторонний и поэтому б = 0,5q, где q = 1-р.
Полученные значения абсолютных погрешностей позволяют сказать, что в i-том опыте значение отклика равно .
Относительная погрешность определения отклика в i-том опыте равна
, (16.8)
где = среднее значение отклика в i-том опыте.
16.2 Статистический анализ регрессионной модели
После проведения регрессионного анализа получается модель объекта исследований в виде некоторой функции. В простейшем случае линейной регрессии она имеет вид
.
В общем случае не все коэффициенты регрессии аi в этой модели значимы, т.к. при выборе факторов обычно нет полной информации о степени влияния каждого на отклик и поэтому приходится вводить в эксперимент и те факторы, которые при данной точности исследования могут оказаться не существенными. Эти факторы теперь можно отсеять проверкой значимости коэффициентов регрессии.
Регрессионный анализ всегда дает не нулевые величины коэффициентов регрессии даже у заведомо не значимых факторов. Это происходит из-за влияния случайных помех или наличия корреляции между факторами. Но обычно коэффициенты регрессии при таких факторах малы. Поэтому нужно проверить, достаточно ли они малы для того, чтобы можно было считать их отличие от нуля результатом вышеуказанных причин. Для отсеивания не значимых аi с некоторой вероятностью р используется t-критерий Стьюдента. Если
(16.9)
то данный коэффициент регрессии значим. Здесь , а -дисперсия i-го коэффициента регрессии
(16.10)
где xij - j-е значение i-го фактора. Этот критерий является односторонним.
Статистическая незначимость интерпретируется как отсутствие влияния данного фактора на отклик в исследованном интервале его изменения.
Если эксперимент активный и его план соответствует т.н. условию ортогональности, то незначимые коэффициенты регрессии просто удаляются из модели без пересчета остающихся. Если это условие не выполняется, что обычно и бывает в пассивных экспериментах, то отсеивание не значимых факторов следует начинать с того, у которого величина t - критерия минимальна. Этот фактор удаляется из матрицы экспериментальных данных и регрессионный анализ проводится повторно. В полученной регрессионной модели снова находят фактор с минимальным t-критерием и повторяют вышеописанную процедуру до тех пор, пока в модели не останутся только значимые факторы.
Причины не значимости того или иного коэффициента регрессии могут быть принципиально различными. Данный фактор может действительно не влиять на отклик. Но незначимость может быть следствием и того, что его влияние не проявилось на фоне сильных помех. Поэтому процедуру отсеивания не автоматизируют, оставляя возможность анализа аргументов в пользу сохранения некоторых незначимых факторов в модели.
Проверка адекватности модели производится для того, чтобы выяснить, правильно ли выбран вид функции регрессии. При этом используется принцип сопоставления с «шумом». Проверке подвергается обычно модель со всеми значимыми аi. Она возможна, если:
1. С помощью дублирования опытов получена оценка дисперсии эксперимента .
2 Выполнено условие N > d+1, где d -число коэффициентов регрессии в модели. Если N ? d+1, то проверять адекватность нет смысла, поскольку поверхность откликов, соответствующая регрессии, будет проходить точно через все экспериментальные точки.
Идея проверки адекватности состоит в том, что сопоставляются дисперсия неадекватности и оценка дисперсии эксперимента . При равномерном дублировании опытов
, (16.11)
где - расчетное по уравнению регрессии значение отклика в і-том опыте.
При неравномерном дублировании
, (16.12)
где - среднее экспериментальное значение отклика в і-том опыте.
Если модель не адекватна, то будет оценивать и некоторую дополнительную компоненту рассеивания, обусловленную погрешностью аппроксимации
Т.о. если не случайным образом больше , то модель неадекватна. Следовательно, нужно проверить гипотезу
Для проверки используется критерий Фишера
, (16.13)
где н1- число степеней свободы дисперсии не адекватности
н1 = mN - (d+1);
н2- число степеней свободы дисперсии эксперимента
н2 = N(m-1).
Этот критерий является односторонним.
Проверка работоспособности модели необходима вследствие того, что даже адекватная модель со всеми значимыми коэффициентами регрессии может оказаться практически бесполезной из-за своей низкой точности. Производится по коэффициенту детерминации
(16.14)
где - значение отклика в i-том опыте по регрессионной модели;
Подобные документы
Элементарные понятия о случайных событиях, величинах и функциях. Числовые характеристики случайных величин. Виды асимметрии распределений. Статистическая оценка распределения случайных величин. Решение задач структурно-параметрической идентификации.
курсовая работа [756,0 K], добавлен 06.03.2012Получение функции отклика показателя качества Y2 и формирование выборки объемом 15 и более 60. Зависимость выбранного Y от одного из факторов Х. Дисперсионный анализ и планирование эксперимента. Проведение корреляционного и регрессионного анализа.
курсовая работа [827,2 K], добавлен 19.06.2012Разработка алгоритма и программы на одном из алгоритмических языков для построения эмпирической плотности распределения случайных величин. Осуществление проверки гипотезы об идентичности двух плотностей распределения, используя критерий Пирсонга.
лабораторная работа [227,8 K], добавлен 19.02.2014Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.
курсовая работа [1,2 M], добавлен 04.02.2011Вид одномерного распределения для номинальной шкалы с совместимыми альтернативами. Меры центральной тенденции. Математическое ожидание, отклонение. Показатели асимметрии, эксцесса. Построение распределений в пакете ОСА и SPSS, визуальное представление.
курс лекций [2,4 M], добавлен 09.10.2013Анализ распределений для выявления закономерности изменения частот в зависимости от значений варьирующего признака и анализ различных характеристик изучаемого распределения. Характеристика центральной тенденции распределения и оценка вариации признака.
лабораторная работа [606,7 K], добавлен 13.05.2010Изучение показателей качества конструкционного газобетона как случайных величин. Проведение модульного эксперимента и дисперсионного анализа с целью определения достоверности влияния факторов на поведение выбранных показателей качества данной продукции.
курсовая работа [342,3 K], добавлен 08.05.2012Зависимости, выявленные в результате анализа двумерных распределений. Статистические критерии для таблиц сопряженности. Коэффициенты Спирмена и Кендела. Коэффициент парной корреляции по Пирсону. Порядок расчета двумерного распределения в пакете ОСА.
презентация [232,3 K], добавлен 09.10.2013Необходимость и цели опытно-конструкторских работ. Оценка количественной зависимости выхода сахаров при гидролизе древесных отходов от температуры и концентрации катализатора. Проведение регрессионного анализа с использованием линейной модели процесса.
контрольная работа [69,5 K], добавлен 23.09.2014Построение гистограммы и эмпирической функции распределения. Нахождение доверительного интервала для оценки математического распределения. Проверка статистической гипотезы о равенстве средних значений, дисперсий, их величине, о виде закона распределения.
курсовая работа [1,7 M], добавлен 29.11.2014