Анализ данных в линейной регрессионной модели
Построение диаграммы рассеивания с нанесенной на нее сеткой для группировки данных. Проверка заданной гипотезы об отсутствии линейной статистической связи между компонентами. Получение интервальной оценки для истинного значения коэффициента корреляции.
Рубрика | Математика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 05.11.2011 |
Размер файла | 162,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Московский государственный институт электронной техники
(Технический университет)
Курсовая работа
по теме:
Анализ данных в линейной регрессионной модели
Выполнил: Наговицын А.А.
Группа: ЭКТ-21
Москва, 2009 г.
Вариант №7
Исходные данные: парная выборка () объемом 50 двумерного нормально распределенного случайного вектора.
X=[17.83 1.21 18.92 9.68 -1.06 12.07 13.67 11.95 14.41 6.41 10.09 8.45 12.61 3.75 8.47 2.86 4.66 6.62 16.93 8.19 9.38 18.86 6.02 14.36 0.76 13.67 5.78 9.37 4.65 13.66 1.74 4.20 10.45 2.96 15.88 6.53 5.18 5.77 0.33 0.94 4.09 14.42 11.86 13.52 8.94 7.94 20.24 14.75 9.42 16.18];
Y=[1.40 30.14 13.01 19.09 59.62 25.07 15.96 4.07 4.32 28.17 23.20 26.03 12.91 56.37 42.23 61.61 46.25 22.13 -16.53 18.58 28.24 -7.18 31.23 5.45 59.16 18.21 31.61 26.60 50.04 7.05 19.02 47.00 -8.76 42.79 1.60 27.59 28.39 38.13 60.50 52.23 41.63 5.41 23.36 14.63 3.91 29.36 -6.33 1.37 21.20 -4.52].
Задание №1
Выполнить предварительную обработку результатов наблюдений, включающую:
1) построение диаграммы рассеивания (корреляционного поля);
2) группировку данных и построение корреляционной таблицы;
3) оценку числовых характеристик для негруппированных и группированных данных.
Решение
1. Диаграмма рассеивания с нанесенной на нее сеткой горизонтальных и вертикальных прямых () представлена на рисунке 1.1.
Рисунок 1.1. Диаграмма рассеивания с нанесенной на нее сеткой для группировки данных.
2. Используя графическую группировку данных (с помощью нанесенной на рисунок 1 сетки), построим таблицу частот (таблица 1.2).
Таблица 1.2. Таблица частот группированной двумерной выборки
X \Y |
-13,5 |
-4,5 |
4,5 |
13,5 |
22,5 |
31,5 |
40,5 |
49,5 |
58,5 |
||
-0,5 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
3 |
4 |
|
2,5 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
0 |
2 |
5 |
|
5,5 |
0 |
0 |
0 |
0 |
1 |
5 |
2 |
3 |
0 |
11 |
|
8,5 |
0 |
0 |
1 |
0 |
5 |
2 |
1 |
0 |
0 |
9 |
|
11,5 |
0 |
1 |
1 |
1 |
3 |
0 |
0 |
0 |
0 |
6 |
|
14,5 |
0 |
0 |
6 |
2 |
1 |
0 |
0 |
0 |
0 |
9 |
|
17,5 |
1 |
2 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
5 |
|
20,5 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
|
1 |
4 |
9 |
4 |
11 |
8 |
4 |
4 |
5 |
50 |
В первом столбце и в первой строке таблицы 1.2 указаны середины интервалов группировки по и по соответственно.
Проведем вычисление выборочных числовых характеристик:
- для негруппированных данных (расчеты выполняются в Matlab, см. приложение 1.4):
, ;
, ;
;
;
, ;
;
;
;
.
- для группированных данных:
, ;
, ;
;
;
, ;
;
;
;
.
Задание №2
Для негруппированных данных проверить гипотезу об отсутствии линейной статистической связи между компонентами и при альтернативной гипотезе (уровень значимости ).
Решение
Для негруппированных данных выборочная оценка коэффициента корреляции равна . Используя Matlab, найдем квантиль распределения Стьюдента:
.
Тогда выборочное значение статистики равно:
;
;
Так как , то гипотеза отклоняется в пользу гипотезы . Корреляция значима.
Задание №3
Для негруппированных данных получить интервальную оценку для истинного значения коэффициента корреляции при уровне значимости .
рассеивание линейный статистический интервальный корреляция
Решение
Для негруппированных данных выборочная оценка коэффициента корреляции равна . Тогда, используя Matlab, найдем:
;
, ;
, ;
.
Задание №4
Для негруппированных и группированных данных составить уравнения линейной регрессии на и на .
Решение
1) Рассмотрим случай не группированных данных.
При доверительный интервал для коэффициента корреляции принимает значение:
.
Этот интервал не содержит нуля, то есть с доверительной вероятностью существует корреляция между и и имеет смысл построения уравнений регрессии.
, ;
, .
Проверка.
, .
, ;
,
, ;
2) Рассмотрим случай группированных данных.
Подставим найденные значения , , , , в уравнения линейной регрессии на и на. Получим:
, ;
Проверка.
, ;
, ;
.
Задание №5
Для не группированных данных нанести графики выборочных регрессионных прямых на диаграмму рассеивания.
Рисунок 1.3. Диаграмма рассеивания с нанесенной для нее сеткой для группировки данных и графики уравнений выборочных линейных регрессий: на , 2 - на .
Задание №6
Для не группированных данных по найденным оценкам параметров линейной регрессии на получить оценку для дисперсии ошибок наблюдений , найти коэффициент детерминации , построить доверительные интервалы для параметров регрессии и , дисперсии ошибок наблюдений и среднего значения при .
Решение
Для не группированных данных были получены следующие оценки числовых характеристик и коэффициентов регрессии: , , , , , , , .
Используя Matlab, найдем сумму квадратов, обусловленную регрессией:
;
;
;
;
;
.
Тогда оценка дисперсии ошибок наблюдений равна
.
Коэффициент детерминации равен
.
Поскольку (знак ), то сделаем проверку правильности расчетов:
(верно).
Полученный результат для коэффициента детерминации означает, что уравнение регрессии на 73,74% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой .
Построим доверительные интервалы для параметров линейной регрессии и дисперсии ошибок наблюдений.
С помощью Matlab найдем квантили распределений Стьюдента и :
, , ;
- доверительный интервал для параметра :
;
;
- доверительный интервал для параметра :
;
;
- доверительный интервал для дисперсии ошибок наблюдений :
;
.
Найдем границы доверительных интервалов для среднего значения при :
;
.
Задание №7
Для не группированных данных проверить значимость линейной регрессии на (уровень значимости ).
Решение
Гипотеза : отклоняется на уровне значимости , так как доверительный интервал не накрывает нуль с доверительной вероятностью 0,95.
Этот же результат можно получить, используя для проверки гипотезу : и статистику .
С помощью Matlab найдем квантили распределения Фишера:
, .
Выборочное значение статистики равно:
.
Поскольку , то гипотеза : отклоняется на уровне значимости . Таким образом, линейная регрессия на статистически значима.
Задание №8
Для данных, сгруппированных только по , проверить адекватность линейной регрессии на (уровень значимости ).
Решение
Для проверки адекватности воспользуемся корреляционной таблицей. Будем считать, что середины интервалов группировки , , являются значениями компоненты . Тогда число повторных наблюдений равно 6. Запишем результаты этих наблюдений в виде таблицы 1.4.
Таблица 1.4. Повторные наблюдения, сгруппированные по X
-0,5 |
2,5 |
5,5 |
8,5 |
11,5 |
14,5 |
17,5 |
20,5 |
||
52,2359,1659,6260,50 |
19,0230,1442,7956,3761,61 |
22,1327,5928,1728,3931,2331,6138,1341,6346,2547,0050,04 |
3,9118,5819,0921,2026,0326,6028,2429,3642,23 |
-8,764,0712,9123,2023,3625,07 |
1,371,604,325,415,457,0514,6315,9618,21 |
-16,53-7,18-4,521,4013,01 |
-6,33 |
||
4 |
5 |
11 |
9 |
6 |
9 |
5 |
1 |
||
57,88 |
41,99 |
35,65 |
23,92 |
13,31 |
8,22 |
-2,76 |
-6,33 |
Для удобства расчетов в последней строке таблицы приведены средние значения , .
.
Получим уравнение выборочной линейной регрессии на для данных, сгруппированных по :
;
, , , , ;
;
;
.
Выборочное значение статистики равно
.
Так как квантиль распределения Фишера, вычисленный с помощью Matlab, равен
2,3240,
то , а значит, линейная регрессия на для данных, сгруппированных по , адекватна результатам наблюдений.
Приложение
Расчеты в Matlab
clc
n=50
X=[17.83 1.21 18.92 9.68 -1.06 12.07 13.67 11.95 14.41 6.41 10.09 8.45 12.61 3.75 8.47 2.86 4.66 6.62 16.93 8.19 9.38 18.86 6.02 14.36 0.76 13.67 5.78 9.37 4.65 13.66 1.74 4.20 10.45 2.96 15.88 6.53 5.18 5.77 0.33 0.94 4.09 14.42 11.86 13.52 8.94 7.94 20.24 14.75 9.42 16.18]
Y=[1.40 30.14 13.01 19.09 59.62 25.07 15.96 4.07 4.32 28.17 23.20 26.03 12.91 56.37 42.23 61.61 46.25 22.13 -16.53 18.58 28.24 -7.18 31.23 5.45 59.16 18.21 31.61 26.60 50.04 7.05 19.02 47.00 -8.76 42.79 1.60 27.59 28.39 38.13 60.50 52.23 41.63 5.41 23.36 14.63 3.91 29.36 -6.33 1.37 21.20 -4.52]
Xsr=sum(X)/50
Ysr=sum(Y)/50
A=X.^2;
Sumxkv=sum(A)/10
Sxkv=(sum(A)-n*Xsr^2)/(n-1)
B=Y.^2;
Sykv=(sum(B)-n*Ysr^2)/(n-1)
C=X.*Y;
Kxy=(sum(C)-n*Xsr*Ysr)/(n-1)
ROxy=Kxy/(sqrt(Sxkv)*sqrt(Sykv))
%Qe
a1=-3.1426;
b1=52.5356;
Y1=X.*a1+b1;
Y2=Y-Y1;
Y3=Y2.^2;
Qe=sum(Y3)/7
%Qy
Y1=Y.^2;
Qy=(sum(Y1)-n*Ysr^2)/45
%Qr
Qr=(n-1)*Kxy^2/Sxkv
%Qn
X=[-0.5 2.5 5.5 8.5 11.5 14.5 17.5 20.5];
Yv=52.8949-X.*3.1787;
Ych=[57.88 41.99 35.65 23.92 13.31 8.22 -2.76 -6.33];
Yr=Ych-Yv;
n=[4 5 11 9 6 9 5 1];
Qn=(Yr.^2).*n;
Qn=sum(Qn)
%Qp
Yi1=[52.23 59.16 59.62 60.50];
Yi2=[19.02 30.14 42.79 56.37 61.61];
Yi3=[22.13 27.59 28.17 28.39 31.23 31.61 38.13 41.63 46.25 47.00 50.04];
Yi4=[3.91 18.58 19.09 21.20 26.03 26.60 28.24 29.36 42.23]
Yi5=[-8.76 4.07 12.91 23.20 23.36 25.07];
Yi6=[1.37 1.60 4.32 5.41 5.45 7.05 14.63 15.96 18.21];
Yi7=[-16.53 -7.18 -4.52 1.40 13.01];
Yi8=[-6.33];
Yr1=(Yi1-57.88).^2;
Yr2=(Yi2-41.99).^2;
Yr3=(Yi3-35.65).^2;
Yr4=(Yi4-23.92).^2;
Yr5=(Yi5-13.31).^2;
Yr6=(Yi6-8.22).^2;
Yr7=(Yi7+2.76).^2;
Yr8=0;
Qp=(sum(Yr1)+sum(Yr2)+sum(Yr3)+sum(Yr4)+sum(Yr5)+sum(Yr6)+sum(Yr7)+sum(Yr8))/10
%KvantF
f=finv(0.95,6,42)
Размещено на Allbest.ru
Подобные документы
Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.
курсовая работа [613,3 K], добавлен 24.10.2012Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.
курсовая работа [593,2 K], добавлен 28.06.2009Функции эритроцитов в организме человека, учет изменения их количества в связи с возрастом в рамках теории вероятностей и математической статистики. Обработка исходных данных, построение диаграммы рассеивания, гистограммы признаков; проверка гипотез.
курсовая работа [1,6 M], добавлен 18.02.2012Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Построение диаграммы рассеивания, полигонов, гистограмм нормированных относительных частот, эмпирических функций распределения по X и по Y. Параметры для уравнения параболической регрессии. Проверка гипотезы о нормальном распределении признака Х.
курсовая работа [511,8 K], добавлен 08.12.2013Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.
контрольная работа [140,5 K], добавлен 17.08.2014Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.
курсовая работа [782,6 K], добавлен 19.05.2014Поиск участков возрастания и убывания функций, классификация экстремума. Умножение матриц АВ–1С. Теория вероятности события и случайных величин. Построение интервальной группировки данных. Решение задачи линейного программирования, построение графика.
контрольная работа [127,1 K], добавлен 11.11.2012