Изучение характера зависимости между признаками X и Y

Исследование закономерностей и связей между двумя дискретными случайными величинами X и Y, при помощи статистических методов. Выборочная дисперсия и выборочные числовые параметры. Расчет коэффициента корреляции. Регрессия и метод наименьших квадратов.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 10.12.2012
Размер файла 649,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ МОСКОВСКОЙ ОБЛАСТИ

«Международный университет природы, общества и человека «Дубна»

Институт системного анализа и управления

Кафедра информатики и вычислительной техники

Кафедра высшей математики

КУРСОВАЯ РАБОТА ПО ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ

ТЕМА: «Изучение характера зависимости между признаками X и Y»

Выполнил: студент 2013 группы 2 курса

Института системного анализа и управления

Ермолчев Алексей Юрьевич

Руководитель:

К.ф.-м.н., доцент Г. Э. Гришанина

Дубна, 2011

Введение

Математическая статистика -- наука о математических методах систематизации и использовании статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала (выборки).

Во время статистических наблюдений для каждого объекта в ряде случаев можно измерить значение нескольких признаков. Таким образом, получается многомерная выборка. Если многомерную выборку обработать по значениям отдельного признака, то получится обычная обработка одномерной выборки.

Смысл обработки многомерных выборок состоит в том, чтобы установить связь между признаками. Связи могу быть функциональными, то есть каждому значению одной величины соответствует определенное значение другой величины.

Если среднее значение одной случайной величины функционально зависит от значения другой случайной величины, то такая статистическая зависимость называется корреляционной.

Для обработки были выбраны индексы потребительских цен и тарифов на товары и услуги в Беларуси и России.

Основная часть

Для обработки были выбраны случайные величины X и Y. Случайная величина X - индексы потребительских цен и тарифов на товары и услуги в Беларуси. Случайная величина Y - индексы потребительских цен и тарифов на товары и услуги в России.

Даны выборки i=1,…, N, N=100.

X

Y

X

Y

X

Y

X

Y

109,4

106,1

97,7

100

115,7

116,4

124,5

126,8

104,5

105

102,3

96,2

106,5

118,2

124,3

113,6

107,3

106,6

139,8

101,6

107

105,4

113,1

124,2

103,6

102,8

154,9

83,6

106,2

102,1

118,4

126,5

105,1

103

105,5

107,7

117,2

117,6

114,9

125,4

103,8

108,3

116,5

108,5

124,2

111,6

118,6

124,7

102,5

108,5

115,7

87,9

111,9

109,9

113,3

115,1

105,8

108,6

94,7

90,6

111,3

106,5

111,6

114,4

106

111,1

114,7

95,2

109,1

109,9

109,5

109,2

111,3

110,6

118,7

108,9

100

106,2

115,6

110,5

111,1

110,3

111,9

106,1

99,8

113,6

120,6

122,1

112,5

107,9

103,2

111,5

94,5

97,3

91,2

124,5

113,1

107,9

110,1

111,3

133,7

102,9

124,5

112,2

93,9

80,2

107,7

109,7

107,3

119,6

125,3

110,1

106,2

102,7

111,6

108,4

117,3

114,6

125,7

111,7

103,8

102,3

102,6

113,3

111,9

123,2

127,8

114,4

103,7

101

105,2

107

119,3

120,9

102,5

102,7

106,8

111

102,8

124,1

104,2

102,4

105,2

110,7

124,6

124,9

104

101

108,2

110,5

121,3

116,2

111,7

85,5

104

114,4

110

111,3

110,6

142,7

104,9

110,1

104,2

110,1

108,8

110,7

123,1

115,5

124,4

109,5

102,5

91,5

113,7

118,7

117,7

113,9

104,4

102,4

104,1

107,1

103,9

117,4

104,6

101,3

107,2

111,4

125,6

116,5

100,7

101,7

106,6

109,2

115,9

122,2

99,5

97,5

106,8

106,6

119,7

125,4

На основании этой выборки строим диаграмму рассеивания и корреляционную таблицу X и Y:

Корреляционная таблица:

X/Y

72,3875-80,2

80,2-88,0125

88,0125-95,82

95,825-103,6375

103,6375-111,45

111,45-119,2625

119,2625-127,075

127,075-134,8875

134,8875-142,7

83,2375-91,2

0

0

0

0

0

0

1

0

0

91,2-99,1625

1

0

1

2

0

0

0

0

0

99,1625-107,125

0

0

1

14

16

6

1

0

0

107,125-115,0875

0

1

1

0

18

3

4

0

1

115,0875-123,05

0

1

0

0

3

5

6

0

0

123,05-131,0125

0

0

0

0

2

7

2

0

0

131,0125-138,975

0

0

0

1

0

0

0

0

0

138,975-146,9375

0

0

0

1

0

0

0

0

0

146,9375-154,9

0

1

0

0

0

0

0

0

0

Приведем основные понятия и определения из курса теории вероятности и математической статистики, которые будут иметь место в данной работе.

Генеральная совокупность -- совокупность объектов, из которых производится случайный выбор объектов для исследования.

Выборочная совокупность -- отобранные случайным образом объекты из генеральной совокупности.

Объем генеральной (выборочной) совокупности -- число объектов совокупности.

Варианта -- наблюдаемое значение переменной.

Относительная частота -- отношение числа наблюдений к объему выборки.

Диаграмма рассеивания (корреляционное поле) -- график в ДПСК, на котором откладываются все пары точек .

Гистограмма относительных частот -- ступенчатая фигура, состоящая из прямоугольников, основанием которых служит интервал длины , а высоты равны .

Выборочное среднее -- среднее арифметическое значений вариант выборки

.

Выборочная дисперсия -- среднее арифметическое квадрата отклонения случайных величин от их среднего значения

.

Исправленная дисперсия .

Мода выборки -- варианта с наибольшей частотой.

Ковариация (корреляционный момент) двух случайных величин и -- это математическое ожидание произведения отклонений случайных величин от их математического ожидания

.

Коэффициентом корреляции двух случайных величин заданных на одном вероятностном пространстве называется величина

.

Если для двух случайных величин и можно хотя бы приближенно записать, что , то говорят, что и связаны линейной (квадратичной) корреляцией.

Выборочные числовые параметры

По необработанной выборке:

По обработанной выборке:

Мода (x) = 102,5Мода (x) = 103,14375

Мода (y) = 114,4Мода (y) = 107,54375

Медиана (x) = 109,25

Медиана (y) = 110

X

Y

Начальные моменты

111,024

109,678

12422,974

12125,9418

1401867,083

1351009,647

159657583,1

151657142,7

Центральные моменты

0

0

96,645424

96,678116

1158,894616

-146,3223937

56846,93329

40621,9799

Расчёт коэффициента корреляции

дискретный дисперсия регрессия корреляция

Корреляция -- это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. Коэффициентом корреляции случайных величин X и Y называют отношение корреляционного момента к произведению средних квадратичных отклонений этих величин:

, причем . (1)

Из формулы (1) видно, что для независимых случайных величин коэффициент корреляции равен нулю, так как для таких величин Kxy = 0.

Случайные величины, для которых = 0, называют некоррелированными (несвязанными).

Отметим, однако, что из некоррелированности случайных величин не следует их независимость.

Коэффициент корреляции характеризует не всякую зависимость, а только так называемую линейную зависимость. Линейная вероятностная зависимость случайных величин заключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или же убывать) по линейному закону. Таким образом, коэффициент корреляции характеризует степень тесноты линейной зависимости между случайными величинами.

Рассчитаем коэффициент

,

где Kxy -- ковариация, и -- средние квадратичные отклонения случайных величин.

, , ,

Дисперсия случайной величины есть характеристика рассеивания, разбросанности значений случайной величины около её математического ожидания. Само слово «дисперсия» означает «рассеивание».

, , ,

Итак, если = 0, то X и Y -- независимые случайные величины; если = 1, то это строгая функциональная зависимость; +1 -- возрастающая регрессия, -1 -- убывающая регрессия.

Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, служат также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям. Для исследуемой взаимосвязи между X и Y, коэффициент корреляции . Следовательно, зависимость между X и Y крайне мала.

Гистограммы относительных нормированных частот X и Y

Графики эмпирических функций распределения X и Y

Графики полигонов относительных частот X и Y

Регрессия. Метод наименьших квадратов

Обычно в любой области науки при изучении двух величин проводятся эксперименты. Из-за того, что почти всегда измерение связано с погрешностями, соответствующие точки X и Y не ложатся на какую-то функцию и задача состоит в том, чтобы на основании экспериментальных точек выявить функциональную зависимость.

Если мы рассматриваем слабо формализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что связи много переменные, т.е. Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.

В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка к экспериментальным точкам. Такая функция называется функцией регрессии.

Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.

Исследование линейной зависимости

Одним из важнейших методов определения зависимости между X и Y является метод наименьших квадратов. Видя общее расположение точек, можно предположить, что эта зависимость линейная. Количество прямых, проходящих через заданную совокупность точек, бесконечно. Выберем оптимальную из них. Для этого суммарное отклонение между теоретическими и экспериментальными точками должно быть минимальным. Это отклонение мы найдем с помощью функции:

Метод нахождения минимального отклонения и есть метод наименьших квадратов. Это суммарное отклонение зависит от коэффициентов а и b функции Y, поэтому эти коэффициенты должны быть минимальными, то есть производная функции F(a, b) в этих точках равны нулю:

N=100.

Получаем следующую систему:

Числа A, B, C и D считаем на компьютере. Используем данные расчетной таблицы и получаем систему уравнений с двумя неизвестными:

Далее, решая эту систему методом исключения переменных, получаем искомые числа a и b:

следовательно, уравнение прямой примет вид:

Аналогично ищем уравнение прямой вида:

Для этого суммарное отклонение между теоретическими и экспериментальными точками должно быть минимальным. Это отклонение мы найдем с помощью функции:

Суммарное отклонение зависит от коэффициентов c и d функции X, поэтому эти коэффициенты должны быть минимальными, то есть производная функции F(с, d) в этих точках равны нулю:

N=100.

Получаем следующую систему:

Числа A, B, C и D считаем на компьютере. Используем данные расчетной таблицы и получаем систему уравнений с двумя неизвестными:

Далее, решая эту систему методом исключения переменных, получаем искомые числа c и d:

следовательно, уравнение прямой примет вид:

Исследование квадратичной зависимости

Линейные связи являются основными, но нередко встречаются и нелинейные связи, хорошо описываемые параболой, гиперболой и т. д.

В этой курсовой работе рассмотрим еще одну регрессию в форме параболы, которая также может описывать отклонения точек от кривой.

Уравнение регрессии в форме параболы второго порядка имеет вид: . Суммарное отклонение зависит от коэффициентов p, q и r этой функции. Как и в предыдущем исследовании, нам необходимо провести оптимальную кривую, т. е. найти минимум функции:

Известно, что минимум достигается в точках, где частные производные функции F(p, q, r) равны нулю. В нашем случае имеем:

Продифференцировав данную функцию, получим следующую систему:

Введем следующие обозначения

N=100.

Получаем следующую систему:

Числа A, B, C, D, E, F, G считаем на компьютере. При решении используем данные расчетной таблицы и получаем систему уравнений с тремя неизвестными:

Решаем данную систему методом Крамера, получаем искомые числа:

следовательно, искомое уравнение параболической регрессии имеет вид:

Y=-0,0249*X2+6,0087*X-248,22

Заключение

В данной работе при помощи статистических методов были прослежены закономерности и связи между двумя дискретными случайными величинами X и Y.

Для этих величин были посчитаны числовые характеристики дискретных случайных величин, построены гистограммы относительных нормированных частот, графики эмпирических функций распределения, графики полигонов относительных частот, приведены диаграммы рассеивания с линиями регрессии, а также корреляционная таблица для величин X и Y.

В результате было научно доказано, что зависимость между X и Y весьма слабая, но она существует. При возрастании X возрастает Y и наоборот.

Список литературы

1. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 1998.

2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. - М.: Высшая школа, 1998.

3. Чавлеишвили М.П. Задачи по теории вероятностей: Учебное пособие. - Дубна: Международный университет природы, общества и человека «Дубна», 2000.

4. Чавлеишвили М.П. Задачи по математической статистике: Учебное пособие. - Дубна: Международный университет природы, общества и человека «Дубна», 2003.

Размещено на Allbest.ru


Подобные документы

  • Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.

    презентация [100,3 K], добавлен 16.12.2014

  • Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

    курсовая работа [304,0 K], добавлен 02.03.2017

  • Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.

    реферат [383,7 K], добавлен 19.08.2015

  • Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.

    контрольная работа [140,5 K], добавлен 17.08.2014

  • Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.

    контрольная работа [87,8 K], добавлен 30.11.2013

  • Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.

    контрольная работа [242,1 K], добавлен 05.11.2011

  • Аппроксимация функции y = f(x) линейной функцией y = a1 + a2x. Логарифмирование заданных значений. Расчет коэффициентов корреляции и детерминированности. Построение графика зависимости и линии тренда. Числовые характеристики коэффициентов уравнения.

    курсовая работа [954,7 K], добавлен 10.01.2015

  • Оценка неизвестных величин по результатам измерений, содержащим случайные ошибки, при помощи метода наименьших квадратов. Аппроксимация многочленами, обзор существующих методов аппроксимации. Математическая постановка задачи аппроксимации функции.

    курсовая работа [1,9 M], добавлен 12.02.2013

  • Закон больших чисел. Нахождение точечных оценок. Построение неизвестной дисперсии погрешности измерений. Выборочная функция распределения. Теорема Ляпунова и распределение Стьюдента. Вычисление доверительных интервалов. Построение интервальных оценок.

    курсовая работа [4,3 M], добавлен 18.12.2011

  • Анализ влияния радиуса кривошипа на величину максимальной температуры рабочего тела в цилиндре двигателя. Получение функциональной зависимости между данными величинами методом наименьших квадратов. Проверка работоспособности регрессионной модели.

    контрольная работа [57,1 K], добавлен 23.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.