Анализ данных в линейной регрессионной модели

Построение диаграммы рассеивания с нанесенной на нее сеткой для группировки данных. Проверка заданной гипотезы об отсутствии линейной статистической связи между компонентами. Получение интервальной оценки для истинного значения коэффициента корреляции.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 05.11.2011
Размер файла 162,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский государственный институт электронной техники

(Технический университет)

Курсовая работа

по теме:

Анализ данных в линейной регрессионной модели

Выполнил: Наговицын А.А.

Группа: ЭКТ-21

Москва, 2009 г.

Вариант №7

Исходные данные: парная выборка () объемом 50 двумерного нормально распределенного случайного вектора.

X=[17.83 1.21 18.92 9.68 -1.06 12.07 13.67 11.95 14.41 6.41 10.09 8.45 12.61 3.75 8.47 2.86 4.66 6.62 16.93 8.19 9.38 18.86 6.02 14.36 0.76 13.67 5.78 9.37 4.65 13.66 1.74 4.20 10.45 2.96 15.88 6.53 5.18 5.77 0.33 0.94 4.09 14.42 11.86 13.52 8.94 7.94 20.24 14.75 9.42 16.18];

Y=[1.40 30.14 13.01 19.09 59.62 25.07 15.96 4.07 4.32 28.17 23.20 26.03 12.91 56.37 42.23 61.61 46.25 22.13 -16.53 18.58 28.24 -7.18 31.23 5.45 59.16 18.21 31.61 26.60 50.04 7.05 19.02 47.00 -8.76 42.79 1.60 27.59 28.39 38.13 60.50 52.23 41.63 5.41 23.36 14.63 3.91 29.36 -6.33 1.37 21.20 -4.52].

Задание №1

Выполнить предварительную обработку результатов наблюдений, включающую:

1) построение диаграммы рассеивания (корреляционного поля);

2) группировку данных и построение корреляционной таблицы;

3) оценку числовых характеристик для негруппированных и группированных данных.

Решение

1. Диаграмма рассеивания с нанесенной на нее сеткой горизонтальных и вертикальных прямых () представлена на рисунке 1.1.

Рисунок 1.1. Диаграмма рассеивания с нанесенной на нее сеткой для группировки данных.

2. Используя графическую группировку данных (с помощью нанесенной на рисунок 1 сетки), построим таблицу частот (таблица 1.2).

Таблица 1.2. Таблица частот группированной двумерной выборки

X \Y

-13,5

-4,5

4,5

13,5

22,5

31,5

40,5

49,5

58,5

-0,5

0

0

0

0

0

0

0

1

3

4

2,5

0

0

0

0

1

1

1

0

2

5

5,5

0

0

0

0

1

5

2

3

0

11

8,5

0

0

1

0

5

2

1

0

0

9

11,5

0

1

1

1

3

0

0

0

0

6

14,5

0

0

6

2

1

0

0

0

0

9

17,5

1

2

1

1

0

0

0

0

0

5

20,5

0

1

0

0

0

0

0

0

0

1

1

4

9

4

11

8

4

4

5

50

В первом столбце и в первой строке таблицы 1.2 указаны середины интервалов группировки по и по соответственно.

Проведем вычисление выборочных числовых характеристик:

- для негруппированных данных (расчеты выполняются в Matlab, см. приложение 1.4):

, ;

, ;

;

;

, ;

;

;

;

.

- для группированных данных:

, ;

, ;

;

;

, ;

;

;

;

.

Задание №2

Для негруппированных данных проверить гипотезу об отсутствии линейной статистической связи между компонентами и при альтернативной гипотезе (уровень значимости ).

Решение

Для негруппированных данных выборочная оценка коэффициента корреляции равна . Используя Matlab, найдем квантиль распределения Стьюдента:

.

Тогда выборочное значение статистики равно:

;

;

Так как , то гипотеза отклоняется в пользу гипотезы . Корреляция значима.

Задание №3

Для негруппированных данных получить интервальную оценку для истинного значения коэффициента корреляции при уровне значимости .

рассеивание линейный статистический интервальный корреляция

Решение

Для негруппированных данных выборочная оценка коэффициента корреляции равна . Тогда, используя Matlab, найдем:

;

, ;

, ;

.

Задание №4

Для негруппированных и группированных данных составить уравнения линейной регрессии на и на .

Решение

1) Рассмотрим случай не группированных данных.

При доверительный интервал для коэффициента корреляции принимает значение:

.

Этот интервал не содержит нуля, то есть с доверительной вероятностью существует корреляция между и и имеет смысл построения уравнений регрессии.

, ;

, .

Проверка.

, .

, ;

,

, ;

2) Рассмотрим случай группированных данных.

Подставим найденные значения , , , , в уравнения линейной регрессии на и на. Получим:

, ;

Проверка.

, ;

, ;

.

Задание №5

Для не группированных данных нанести графики выборочных регрессионных прямых на диаграмму рассеивания.

Рисунок 1.3. Диаграмма рассеивания с нанесенной для нее сеткой для группировки данных и графики уравнений выборочных линейных регрессий: на , 2 - на .

Задание №6

Для не группированных данных по найденным оценкам параметров линейной регрессии на получить оценку для дисперсии ошибок наблюдений , найти коэффициент детерминации , построить доверительные интервалы для параметров регрессии и , дисперсии ошибок наблюдений и среднего значения при .

Решение

Для не группированных данных были получены следующие оценки числовых характеристик и коэффициентов регрессии: , , , , , , , .

Используя Matlab, найдем сумму квадратов, обусловленную регрессией:

;

;

;

;

;

.

Тогда оценка дисперсии ошибок наблюдений равна

.

Коэффициент детерминации равен

.

Поскольку (знак ), то сделаем проверку правильности расчетов:

(верно).

Полученный результат для коэффициента детерминации означает, что уравнение регрессии на 73,74% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой .

Построим доверительные интервалы для параметров линейной регрессии и дисперсии ошибок наблюдений.

С помощью Matlab найдем квантили распределений Стьюдента и :

, , ;

- доверительный интервал для параметра :

;

;

- доверительный интервал для параметра :

;

;

- доверительный интервал для дисперсии ошибок наблюдений :

;

.

Найдем границы доверительных интервалов для среднего значения при :

;

.

Задание №7

Для не группированных данных проверить значимость линейной регрессии на (уровень значимости ).

Решение

Гипотеза : отклоняется на уровне значимости , так как доверительный интервал не накрывает нуль с доверительной вероятностью 0,95.

Этот же результат можно получить, используя для проверки гипотезу : и статистику .

С помощью Matlab найдем квантили распределения Фишера:

, .

Выборочное значение статистики равно:

.

Поскольку , то гипотеза : отклоняется на уровне значимости . Таким образом, линейная регрессия на статистически значима.

Задание №8

Для данных, сгруппированных только по , проверить адекватность линейной регрессии на (уровень значимости ).

Решение

Для проверки адекватности воспользуемся корреляционной таблицей. Будем считать, что середины интервалов группировки , , являются значениями компоненты . Тогда число повторных наблюдений равно 6. Запишем результаты этих наблюдений в виде таблицы 1.4.

Таблица 1.4. Повторные наблюдения, сгруппированные по X

-0,5

2,5

5,5

8,5

11,5

14,5

17,5

20,5

52,23

59,16

59,62

60,50

19,02

30,14

42,79

56,37

61,61

22,13

27,59

28,17

28,39

31,23

31,61

38,13

41,63

46,25

47,00

50,04

3,91

18,58

19,09

21,20

26,03

26,60

28,24

29,36

42,23

-8,76

4,07

12,91

23,20

23,36

25,07

1,37

1,60

4,32

5,41

5,45

7,05

14,63

15,96

18,21

-16,53

-7,18

-4,52

1,40

13,01

-6,33

4

5

11

9

6

9

5

1

57,88

41,99

35,65

23,92

13,31

8,22

-2,76

-6,33

Для удобства расчетов в последней строке таблицы приведены средние значения , .

.

Получим уравнение выборочной линейной регрессии на для данных, сгруппированных по :

;

, , , , ;

;

;

.

Выборочное значение статистики равно

.

Так как квантиль распределения Фишера, вычисленный с помощью Matlab, равен

2,3240,

то , а значит, линейная регрессия на для данных, сгруппированных по , адекватна результатам наблюдений.

Приложение

Расчеты в Matlab

clc

n=50

X=[17.83 1.21 18.92 9.68 -1.06 12.07 13.67 11.95 14.41 6.41 10.09 8.45 12.61 3.75 8.47 2.86 4.66 6.62 16.93 8.19 9.38 18.86 6.02 14.36 0.76 13.67 5.78 9.37 4.65 13.66 1.74 4.20 10.45 2.96 15.88 6.53 5.18 5.77 0.33 0.94 4.09 14.42 11.86 13.52 8.94 7.94 20.24 14.75 9.42 16.18]

Y=[1.40 30.14 13.01 19.09 59.62 25.07 15.96 4.07 4.32 28.17 23.20 26.03 12.91 56.37 42.23 61.61 46.25 22.13 -16.53 18.58 28.24 -7.18 31.23 5.45 59.16 18.21 31.61 26.60 50.04 7.05 19.02 47.00 -8.76 42.79 1.60 27.59 28.39 38.13 60.50 52.23 41.63 5.41 23.36 14.63 3.91 29.36 -6.33 1.37 21.20 -4.52]

Xsr=sum(X)/50

Ysr=sum(Y)/50

A=X.^2;

Sumxkv=sum(A)/10

Sxkv=(sum(A)-n*Xsr^2)/(n-1)

B=Y.^2;

Sykv=(sum(B)-n*Ysr^2)/(n-1)

C=X.*Y;

Kxy=(sum(C)-n*Xsr*Ysr)/(n-1)

ROxy=Kxy/(sqrt(Sxkv)*sqrt(Sykv))

%Qe

a1=-3.1426;

b1=52.5356;

Y1=X.*a1+b1;

Y2=Y-Y1;

Y3=Y2.^2;

Qe=sum(Y3)/7

%Qy

Y1=Y.^2;

Qy=(sum(Y1)-n*Ysr^2)/45

%Qr

Qr=(n-1)*Kxy^2/Sxkv

%Qn

X=[-0.5 2.5 5.5 8.5 11.5 14.5 17.5 20.5];

Yv=52.8949-X.*3.1787;

Ych=[57.88 41.99 35.65 23.92 13.31 8.22 -2.76 -6.33];

Yr=Ych-Yv;

n=[4 5 11 9 6 9 5 1];

Qn=(Yr.^2).*n;

Qn=sum(Qn)

%Qp

Yi1=[52.23 59.16 59.62 60.50];

Yi2=[19.02 30.14 42.79 56.37 61.61];

Yi3=[22.13 27.59 28.17 28.39 31.23 31.61 38.13 41.63 46.25 47.00 50.04];

Yi4=[3.91 18.58 19.09 21.20 26.03 26.60 28.24 29.36 42.23]

Yi5=[-8.76 4.07 12.91 23.20 23.36 25.07];

Yi6=[1.37 1.60 4.32 5.41 5.45 7.05 14.63 15.96 18.21];

Yi7=[-16.53 -7.18 -4.52 1.40 13.01];

Yi8=[-6.33];

Yr1=(Yi1-57.88).^2;

Yr2=(Yi2-41.99).^2;

Yr3=(Yi3-35.65).^2;

Yr4=(Yi4-23.92).^2;

Yr5=(Yi5-13.31).^2;

Yr6=(Yi6-8.22).^2;

Yr7=(Yi7+2.76).^2;

Yr8=0;

Qp=(sum(Yr1)+sum(Yr2)+sum(Yr3)+sum(Yr4)+sum(Yr5)+sum(Yr6)+sum(Yr7)+sum(Yr8))/10

%KvantF

f=finv(0.95,6,42)

Размещено на Allbest.ru


Подобные документы

  • Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.

    контрольная работа [242,1 K], добавлен 05.11.2011

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Cтатистический анализ зависимости давления. Построение диаграммы рассеивания и корреляционной таблицы. Вычисление параметров для уравнений линейной и параболической регрессии, выборочных параметров. Проверка гипотезы о нормальном распределении признака.

    курсовая работа [613,3 K], добавлен 24.10.2012

  • Исследование зависимости потребления бензина в городе от количества автомобилей с помощью методов математической статистики. Построение диаграммы рассеивания и определение коэффициента корреляции. График уравнения линейной регрессии зависимости.

    курсовая работа [593,2 K], добавлен 28.06.2009

  • Функции эритроцитов в организме человека, учет изменения их количества в связи с возрастом в рамках теории вероятностей и математической статистики. Обработка исходных данных, построение диаграммы рассеивания, гистограммы признаков; проверка гипотез.

    курсовая работа [1,6 M], добавлен 18.02.2012

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Построение диаграммы рассеивания, полигонов, гистограмм нормированных относительных частот, эмпирических функций распределения по X и по Y. Параметры для уравнения параболической регрессии. Проверка гипотезы о нормальном распределении признака Х.

    курсовая работа [511,8 K], добавлен 08.12.2013

  • Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.

    контрольная работа [140,5 K], добавлен 17.08.2014

  • Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.

    курсовая работа [782,6 K], добавлен 19.05.2014

  • Поиск участков возрастания и убывания функций, классификация экстремума. Умножение матриц АВ–1С. Теория вероятности события и случайных величин. Построение интервальной группировки данных. Решение задачи линейного программирования, построение графика.

    контрольная работа [127,1 K], добавлен 11.11.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.