Исследование корреляционной зависимости случайных величин, регрессионный анализ

Математические методы систематизации, использование статистических данных для научных и практических выводов. Использование метода наименьших квадратов для исследования линейной регрессии и нахождения выборочного коэффициента корреляции исходных данных.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 19.06.2015
Размер файла 132,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Государственное образовательное учреждение высшего профессионального образования Московской области

"Международный университет природы, общества и человека "Дубна"

КУРСОВАЯ РАБОТА

по Теории вероятности и математической статистике

"Исследование корреляционной зависимости случайных величин, регрессионный анализ"

Выполнил: студент группы 13270-С

Шишков Д.А

Руководитель: ст. преподаватель

Чебоненко З.А

Дубна, 2015

Оглавление

  • Введение
  • 1. Постановка задачи
  • 2. Теоретическая часть
  • 3. Метод наименьших квадратов для определения a, b
    • 4. Исходные данные и их обработка
  • 5. Уравнение линейной регрессии
  • Заключение
  • Список используемой литературы

Введение

В данной курсовой работе рассмотрена зависимость одной статистической величины от другой. Задача состояла в изучении характера зависимости между признаками и , где , - значения двух признаков исследуемого объекта. С помощью методов математической статистики и теории вероятностей необходимо было выяснить, есть ли зависимость между ними, а если есть, то является ли она линейной.

Математическая статистика - наука о математических методах систематизации и использовании статистических данных для научных и практических выводов. Математическая статистика довольно часто опирается на теорию вероятностей, которая позволяет оценить надёжность и точность выводов, сделанных на основании определенного статистического материала, выборки генеральной совокупности. Во время статистических наблюдений для каждого объекта в ряде случаев можно измерить значения признаков. Таким образом, получается многомерная выборка. Если многомерную выборку обработать по значениям какого-либо определенного признака, то получится обычная обработка одномерной выборки.

Смысл обработки многомерных выборок состоит в том, чтобы установить связь между признаками. Связи между ними могут быть функциональными, то есть каждому значению одной величины соответствует определенное значение другой величины.

Связь между случайными величинами часто носит случайный характер. Она называется статистической, если изменение одной величины вызывает изменение распределения другой величины. Если среднее значение одной случайной величины функционально зависит от значения другой случайной величины, то такая статистическая зависимость называется корреляционной.

1. Постановка задачи

Дана выборка , , i=1,…N, N=20, где , - значения двух признаков исследуемых объектов.

Задача состоит в изучении характера зависимости между признаками X и Y.

Требуется:

1. Изучить соответствующий материал с использованием литературы и информационных источников.

2. По выборке, состоящей из 20 пар чисел (Xi, Yi) провести статистический анализ:

· построить диаграмму рассеивания. Найти все выборочные числовые параметры:, Xср., Yср., среднее квадратическое отклонение, коэффициент корреляции, ковариацию.

· вычислить выборочные средние, выборочные и исправленные дисперсии, среднеквадратичные отклонения, моды и медианы выборки по X и по Y, корреляционный момент и коэффициент корреляции.

3. Вычислить параметры для уравнения линейной регрессии (Y как функция X) с использованием метода наименьших квадратов. Построить линию регрессии на диаграмме рассеивания.

4. Проанализировать полученные результаты и сделать выводы.

2. Теоретическая часть

Вся подлежащая изучению совокупность объектов называется генеральной совокупностью. Та часть объектов, которая отобрана для непосредственного изучения и генеральной совокупности называется выборочной совокупностью или выборкой.

Объемом совокупностью (выборочной или генеральной) называется число объектов данной совокупности. Генеральная совокупность может иметь, как конечный, так и бесконечный объем.

Средней арифметической вариационного ряда называется сумма произведений всех вариантов на соответствующие частоты деленное на сумму частей.

Средним линейным абсолютным отклонением вариационного ряда называется средняя арифметическая абсолютных величин отклонение вариантов от их средней арифметической.

Дисперсией SІ вариационного ряда называют среднюю арифметическую квадратов отклонений вариантов от их средней арифметической.

Среднее квадратическое отклонение S- арифметическое значение квадратного корня из дисперсии.

Выборочная ковариация - числовая характеристика совместного распределения двух случайных величин, равная математическому ожиданию произведения отклонений случайных величин от их математических ожиданий.

Коэффициентом корреляции величин X и Y называют отношение корреляционного момента к произведению средних квадратических отклонений этих величин:

Коэффициент корреляции - безразмерная величина, причем его абсолютная величина не превышает единицы:

Регрессия - зависимость среднего значения какой-либо величины Y от другой величины X. Понятие регрессии в некотором смысле обобщает понятие функциональной зависимости y = f(x). Только в случае регрессии одному и тому же значению x в различных случаях соответствуют различные значения у.

Регрессионный анализ заключается в определении аналитического выражения связи, в которой изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов).

3. Метод наименьших квадратов для определения a, b

Метод наименьших квадратов (МНК) - метод, применяемый в теории ошибок для отыскания одного или нескольких неизвестных по результатам измерений, содержащим случайные ошибки. МНК используется также для приближенного представления заданной функции другими (более простыми) функциями и часто оказывается полезным для обработки наблюдений.

В простейшем случае, когда нет систематических ошибок, а есть случайные оценки неизвестных величин, полученные с помощью МНК, то они являются линейными функциями от наблюдаемых значений - статистические оценки.

Если статистические оценки наблюдений независимы и подчиняются нормальному распределению, то МНК дает оценки неизвестных с наименьшей средней квадратичной ошибкой. В этом смысле МНК является самым лучшим среди других способов, позволяющих находить линейные несмещенные оценки.

Если мы рассматриваем слабо формализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.

В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка экспериментальным точкам. Такая функция называется функцией регрессии.

Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.

Исследование линейной регрессии:

Определим коэффициенты линейной функции методом наименьших квадратов. Для этого составим сумму

Для того чтобы эта сумма была минимальной, необходимо, чтобы ее частные производные по параметрам A и B были равны нулю

Раскрыв скобки, мы получим

Выразим a и b

Одним из важнейших методов определения зависимости между X и Y является метод наименьших квадратов. Видя общее расположение точек, можно предположить, что эта зависимость линейная. Количество прямых, проходящих через заданную совокупность точек, бесконечно. Выберем оптимальную из них. Для этого суммарное отклонение между теоретическими и экспериментальными точками должно быть минимальным. Это отклонение мы найдем с помощью функции

Метод нахождения минимального отклонения и есть метод наименьших квадратов. Это суммарное отклонение зависит от коэффициентов а и b функции Y, поэтому эти коэффициенты должны быть минимальными, то есть производная функции в этих точках равны нулю:

Найдя частные производные и приравняв их нулю, получим следующую систему уравнений

Решив эту систему, мы найдем наилучший набор этих параметров. Эта теоретическая кривая с параметрами, которые определяются методом наименьших квадратов, и будет искомой линией - линией линейной регрессии.

4. Исходные данные и их обработка

Нам дана выборка (объема n=20) зависимости числа (Y) от числа (X).

Таблица 1. Результаты сопоставления данных

X

Y

-12,3

-170,2

-11,4

-148

3,8

23,6

-12,3

-146,7

-8,4

-104,5

-9,9

-128,3

-13,6

-181,7

2,6

0,5

-13,6

-170,2

-0,2

-4,5

-6,2

-59,4

-3

-44,8

0,6

-4,5

0,5

-5

1,7

7,3

-8,3

-94,8

-13,6

-186,1

-6,8

-80,2

-0,9

-7,1

0,6

-7,8

Вычисляем выборочные параметры.

Выборочные средние:

Выборочные дисперсии:

Средние квадратические отклонения:

Исправленные дисперсии:

Оценки среднеквадратичных отклонений:

Корреляционный момент (ковариация):

Выборочный коэффициент корреляции:

Связь между переменными прямая () и достаточно тесная, т.к. близка к 1.

5. Уравнение линейной регрессии

Суммарное квадратическое отклонение для линейной регрессии зависит от двух параметров a и b и определяется соотношением:

22

Метод наименьших квадратов для линейной регрессии заключается в нахождении "наилучших" значений параметровa и b из условий минимума функции , т.е. из системы уравнений:

Определим для данных курсовой работы параметры a и b.

Сначала определим само суммарное квадратическое отклонение

где xi и yi - соответствующие значения X и Y, взятые из таблицы 1. В результате всех этих операций получим, что

Тогда система уравнений примет вид:

Подставляя соответствующие значения xi и yi, решаем систему и находим, что a= 11,77237988; b= -10,45987738.

Диаграмма рассеивания - это нанесенные на плоскость точки, координаты которых представляют собой соответствующие пары чисел X и Y.

Строим линию регрессии на диаграмме рассеивания (рис. 1):

Рис.1. Диаграмма рассеивания с построенной линией регрессии

Таким образом, мы выяснили, что зависимость между X и Y близка к линейной.

Заключение

статистический систематизация регрессия корреляция

В данной курсовой работе был проведен статистический анализ зависимости одной статистической величины от другой. Были получены основные числовые характеристики генеральной совокупности. Также были приведена диаграмма рассеивания с линией регрессии, наглядно показывающая ход выполнения статистического анализа. В данной работе был разобран метод наименьших квадратов.

В ходе работы было выяснено, что данная выборка случайных величин имеет такую линейную зависимость, что при росте Х, увеличивается и значения Y.

Список используемой литературы

1. Гмурман В.Е. Теория вероятностей и математическая статистика. Учебное пособие для вузов. - М.: Высшая школа, 2001.

2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. Учебное пособие для вузов.- 9-е изд., стер. М.: Высшая школа, 2004. - 404с.

3. Кремер Н.Ш. Теория вероятностей и математическая статистика - Учебник для втузов. - 2-е изд., перераб. и доп. - М. : ЮНИТИ - ДАНА, 2004.

Размещено на Allbest.ru


Подобные документы

  • Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.

    курсовая работа [782,6 K], добавлен 19.05.2014

  • Алгебраический расчет плотности случайных величин, математических ожиданий, дисперсии и коэффициента корреляции. Распределение вероятностей одномерной случайной величины. Составление выборочных уравнений прямой регрессии, основанное на исходных данных.

    задача [143,4 K], добавлен 31.01.2011

  • Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат [332,8 K], добавлен 10.12.2010

  • Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа [215,1 K], добавлен 13.12.2014

  • Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.

    презентация [92,4 K], добавлен 01.11.2013

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Анализ и обработка статистического материала выборок Х1, Х2, Х3. Вычисление статистической дисперсии и стандарта случайной величины. Определение линейной корреляционной зависимости нормального распределения двух случайных величин, матрицы вероятностей.

    контрольная работа [232,5 K], добавлен 25.10.2009

  • Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

    курсовая работа [304,0 K], добавлен 02.03.2017

  • Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.

    реферат [383,7 K], добавлен 19.08.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.