Математическая обработка статистических данных

Способы сбора и группировки статистических сведений, полученных в результате специально поставленных экспериментов, оценка неизвестной вероятности событий, проверка интервальных статистических гипотез о виде неизвестного распределения двумерной величины.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 08.07.2012
Размер файла 325,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Установление закономерностей, которым подчинены массовые случайные явления, основаны на изучении теории вероятностей статистических данных - результатов наблюдении.

Первая задача математической статистики - указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики - разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:

· Оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или несколько случайных величин и др.;

· Проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.

Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности. В общем, математическая статистика - раздел математики, основанный на теории вероятностей и изучающий методы сбора, систематизации и обработки результатов наблюдений массовых случайных явлений с целью выявления закономерностей.

Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.

Индивидуальные задания

Приводятся результаты 100 наблюдений над некоторой случайной двумерной величиной (X, Y).

Требуется для каждой случайной величины X и Y (сокращенно СВ, СВ X, СВ Y):

1. Построить интервальный и дискретный статистический ряды распределения частот и относительных частот.

2. Построить гистограмму и полигон относительных частот.

3. Найти эмпирическую функцию распределения и построить ее график.

4. Вычислить числовые характеристики выборки: выборочную среднюю, выборочную дисперсию, выборочное среднее квадратическое отклонение, выборочные коэффициенты асимметрии и эксцесса.

5. Сделать предварительный выбор закона распределения наблюдаемой СВ, исходя из механизма ее образования, по виду гистограммы и полигона относительных частот и по значения выборочных коэффициентов асимметрии и эксцесса.

6. Найти точечные оценки параметров нормального закона распределения, предполагая, что наблюдаемая СВ распределена по нормальному закону, и записать функцию плотности распределения вероятностей.

7. Проверить с помощью критерия согласия Пирсона гипотезу о том, что выборка извлечена из генеральной совокупности с предполагаемым нормальным законом распределения.

8. В случае принятия гипотезы найти интервальные оценки параметров нормального закона распределения (доверительную вероятность принять равной ).

9. Провести корреляционный анализ:

а) составить корреляционную таблицу;

б) найти выборочный коэффициент корреляции;

в) проверить значимость выборочного коэффициента корреляции при (H0: p = 0), при альтернативной гипотезе : ;

г) построить корреляционное поле и по характеру расположения точек на нем подобрать общий вид функции регрессии;

д) найти эмпирические функции регрессии Y на X, X на Y и построить их графики.

статистический математический данные

Вариант №1

Требуется провести статистическую обработку экспериментальных данных согласно пунктам 1-9 индивидуального задания. Проведем статистическую обработку для СВ Y.

Статистическая обработка результатов эксперимента в случае выборки большого объема () начинается с группировки выборочных значений, то есть с разбиения наблюдаемых значений СВ на k частичных интервалов равной длины и подсчета частот попадания значений СВ в частичные интервалы.

Сделаем группировку наблюдаемых значений. Оптимальную длину интервала определим по формуле Стэрджеса:

,

где , - соответственно максимальное и минимальное выборочные значения СВ Y, n - объем выборки. Если h окажется дробным, то за величину интервала нужно взять либо ближайшее целое число, либо ближайшую несложную дробь.

Для СВ Y n = 100, Ymax = 36, Ymin = 13. Следовательно,

В качестве левого конца первого интервала возьмем величину, равную Далее Получим:

Составим таблицу (таблица 1):

ТАБЛИЦА 1 Вспомогательная таблица для расчета числовых характеристик выборки

Интервалы

Середины

интервалов

Частоты

Относительные частоты

Наколенные относительные частоты

13

2

0,02

0,02

16

6

0,06

0,08

19

17

0,17

0,25

22

19

0,19

0,44

25

21

0,21

0,65

28

20

0,20

0,85

31

11

0,11

0,96

34

3

0,03

0,99

37

1

0,01

1,00

Первый и четвертый столбцы таблицы 1 составляют интервальный статистический ряд относительных частот, графическое изображение которого - гистограмма относительных частот (ступенчатая фигура на рис. 1). Дискретный статистический ряд относительных частот задается вторым и четвертым столбцами, графическое изображение которого - полигон относительных частот (ломаная линия на рис. 1).

Эмпирическая функция распределения F*(y) выборки служит для оценки функции распределения F(y) генеральной совокупности. Функция F*(y) определяет для каждого значения y относительную частоту события Y < y:

,

где ny - число выборочных значений, меньших y; n - объем выборки. Пятый столбец таблицы 1 содержит накопленные частоты, то есть значения эмпирической функции распределения F*(y), они относятся к верхней границе частотного интервала.

Эмпирическая функция распределения F*(y) имеет вид:

График эмпирической функции распределения F*(y) изображен на рис. 2 (для непрерывных распределений значения F*(y) распространяются на интервалы линейным интерполированием).

Для вычисления числовых характеристик выборки удобно использовать таблицу 2, где в первых двух столбцах приведены сгруппированные исходные данные, а остальные столбцы служат для вычисления числовых характеристик.

ТАБЛИЦА 2 Таблица для расчета числовых характеристик выборки

Середины интервалов

Частоты

13

2

-11,28

-22,56

254,4768

-2870,4983

32379,2208

16

6

-8,28

-49,68

411,3504

-3405,9813

28201,525

19

17

-5,28

-89,76

473,9328

-2502,3652

13212,4883

22

19

-2,28

-43,32

98,7696

-225,1947

513,4439

25

21

0,72

15,12

10,8864

7,8382

5,6435

28

20

3,72

74,4

276,768

1029,577

3830,026

31

11

6,72

73,92

496,7424

3338,1089

22432,0918

34

3

9,72

29,16

283,4352

2754,99

26778,503

37

1

12,72

12,72

161,7984

2058,0756

26178,722

сумма

100

-

0

2468,16

184,5502

153531,6643

Выборочное среднее вычисляют по формуле:

где m - число интервалов, yi - середины интервалов.

= =

Выборочное среднее дает усредненное значение времени непрерывной работы станков для данной выборки.

Выборочную дисперсию для сгруппированных данных вычисляют по формуле:

Выборочное среднее квадратическое отклонение находят по формуле:

Оно показывает разброс выборочных значений y, относительно выборочного среднего

Выборочные коэффициенты асимметрии и эксцесса вычисляют по формулам:

Используя суммы из последних строк шестого и седьмого столбцов таблицы 2, получим:

говорит о несимметричности полигона (гистограммы) относительно выборочного среднего . Положительный знак свидетельствует о правосторонней асимметрии данного распределения. Отрицательность показывает, что полигон менее крут, чем нормальная кривая.

Предварительно предполагаем, что СВ Y распределена нормально по совокупности следующих признаков.

Выборочные коэффициенты асимметрии и эксцесса отличаются от значений асимметрии и эксцесса для нормального распределения (которые равны нулю) не более, чем на утроенные средние квадратические ошибки их определения.

Гипотезу о том, что генеральная совокупность, из которой извлечена выборка, распределена по нормальному закону, назовем нулевой , тогда . Проверим ее с помощью критерия согласия Пирсона. Согласно критерию Пирсона сравниваются эмпирические ni (наблюдаемые) и теоретические npi (вычисленные в предположении нормального распределения) частоты. В качестве критерия проверки нулевой гипотезы принимается СВ

По таблице критических точек распределения ч2 по заданному уровню значимости и числу степеней свободы (S - число интервалов, r - число параметров предполагаемого распределения СВ Y) находится критическое значение .

Если , то считается, что данный критерий не дает оснований для отклонения гипотезы при данном уровне значимости . В противном случае считается, что гипотеза не согласуется с экспериментальными данными и ее отвергают.

Если проверятся гипотеза о нормальном распределении, то вероятности pi рассчитываются с помощью функции Лапласа Ф(у):

где , .

Вычисления сведем в таблицу 3. Количество интервалов S = 7.

Так как предполагается нормальное распределение, имеющее 2 параметра (математическое ожидание a и среднее квадратическое отклонение ), поэтому , тогда число степеней свободы .

ТАБЛИЦА 3 Расчетная таблица для вычисления

Интервалы

Частоты эмпирические ni

Вероятности pi

Теоретические частоты npi

2

0,02442

2,442

0,08

6

0,06258

6,258

0,0106

17

0,13663

13,663

0,815

19

0,21281

21,281

0,2445

21

0,2372

23,72

0,3119

20

0,1795

17,95

0,2341

11

0,09739

9,739

0,1633

3

0,03756

3,756

0,1522

1

0,01191

1,191

0,0306

100

1

100

2,0422

В таблице критических точек распределения по уровню значимости и числу степеней свободы найдем критическое значение .

Так как , то считаем, что нет оснований для отклонения нулевой гипотезы при заданном уровне значимости .

Построим график эмпирической функции . Для этого из середины частичных интервалов восстановим перпендикуляры высотой равной pi - вероятностям попадания СВ Y в соответствующий частичный интервал. На рис.3 концы перпендикуляров отмечены точками, полученные точки соединены плавной кривой.

Сравнение полигона относительных частот и нормальной кривой показывает, что построенная нормальна кривая удовлетворительно сглаживает полигон.

Найдем интервальные оценки параметров нормального закона распределения. Для нахождения доверительного интервала, покрывающего математическое ожидание СВ У, найдем по таблицам квантилей распределения Стьюдента по заданной доверительной вероятности 0,95 и числу степеней свободы число

Вычислим предельную погрешность интервального оценивания:

Запишем искомый доверительный интервал для мат. ожидания a:

Если будет произведено достаточное большое число выборок из одной и той же генеральной совокупности, что в 95% выборок доверительный интервал (23,294;25,266) покроет математическое ожидание a; и только в 5% выборок математическое ожидание может выйти за границы доверительного интервала.

Для нахождения доверительного интервала, покрывающего неизвестное среднее квадратическое отклонение с заданной вероятностью , найдем по и числу степеней свободы

два числа и .

Искомый доверительный интервал равен:

Если будет произведено достаточно большое число выборок из одной и той же генеральной совокупности, что в 95% выборок доверительный интервал (4,362;5,768) покроет среднее квадратическое отклонение , и только в 5% среднее квадратическое отклонение может выйти за границы доверительного интервала (4,362;5,768).

Проведем корреляционный анализ выборочных данных СВ X и СВ Y.

Составим корреляционную таблицу. Интервалы для СВX:

(10,1;19,9], (19,9;29,7], (29,7;39,5], (39,5;49,3], (49,3;59,1], (59,1;68,9], (68,9;78,7], (78,7;88,5], (88,5;98,3].

Интервалы для СВ Y:

(11,5;14,5], (14,5;17,5], (17,5;20,5], (20,5;23,5], (23,5;26,5], (26,5:29,5], (29,5;32,5], (32,5;35,5], (35,5;38,5].

ТАБЛИЦА 4 Корреляционная таблица эмпирического распределения двумерной случайной величины (X, Y)

15

24,8

34,6

44,4

54,2

64

73,8

83,5

93,4

13

1

1

2

16

2

3

1

6

19

1

4

5

5

2

17

22

1

9

8

1

19

25

1

7

6

7

21

28

1

6

6

7

20

31

1

3

4

3

11

34

1

1

1

3

37

1

1

4

9

16

21

16

17

12

4

1

100

Зная, что , , , , вычисляем сначала выборочный корреляционный момент:

где m - число заполненных клеток.

Выборочный коэффициент корреляции:

Положительный знак выборочного коэффициента корреляции rB показывает, что с увеличением значений СВ Х эмпирические значения СВ У в среднем увеличиваются.

Проверим значимость полученного выборочного коэффициента корреляции, то есть проверим нулевую гипотезу о том, что коэффициент корреляции p равен нулю при альтернативной гипотезе .

Вычислим статистику:

Принятие гипотезы Ha при уровне значимости означает, что выборочный коэффициент корреляции отличается от нуля с ошибкой 5%.

Коэффициент Стьюдента равен 1,984.

Так как , то нулевая гипотеза отвергается и коэффициент корреляции можно считать существенным, а связь между СВ достоверной, то есть . Поэтому между СВ Х и СВ У существует корреляционная зависимость.

Построим корреляционное поле. Изобразим результаты измерений в виде точек в декартовой системе координат.

Найдем выборочное уравнение регрессии Y на X:

Найдем выборочное уравнение регрессии X на Y:

Контроль вычислений:

Графики найденных выборочных функций регрессии нанесены на рис.4

Вывод

Была проведена исследовательская работа над случайной двумерной величиной Х - кол-во обработанных деталей, шт.; У - время непрерывной работы станков, ч. Были построены интервальный и дискретный статистически ряды распределения частот и относительных частот, гистограммы и полигоны относительных частот, эмпирические функции распределения. Были вычислены числовые характеристики выборки: выборочная средняя, выборочная дисперсия, выборочные коэффициенты асимметрии и эксцесса. Для Х - кол-во обработанных деталей и для У - время непрерывной работы станков, ч. несимметричный полигон (гистограмма) Правосторонняя асимметрия данного распределения, и полигон менее крут чем нормальная кривая.

Х - кол-во обработанных деталей, шт.; У - время непрерывной работы станков, ч. распределены по нормальному закону, это видно исходя из механизма их образования, по виду гистограммы и полигона относительных частот и по значениям выборочных коэффициентов асимметрии и эксцесса.

Далее были найдены точечные оценки параметров нормального закона распределения, и записаны функции плотности распределения вероятностей для Х - кол-во обработанных деталей, шт.; и для У - время непрерывной работы станков, ч.

Проверил с помощью критерия согласия Пирсона гипотезу о том, что выборка извлечена из генеральной совокупности с предполагаемым нормальным законом распределения. Была приняты гипотезы и найдены интервальные оценки параметров нормального закона распределения.

И теперь соединив значения Х - кол-во обработанных деталей, шт.; У - время непрерывной работы станков, ч. провел корреляционный анализ: составил корреляционную таблицу; нашел выборочный коэффициент корреляции; проверил значимость выборочного коэффициента корреляции rв; построил корреляционное поле и по характеру расположения точек на нем подобрать общий вид функции регрессии; нашел эмпирические функции регрессии У - время непрерывной работы станков, ч. на Х - кол-во обработанных деталей, шт.;, X на Y и построил их графики.

Заключение

Проделав эту работу, в результате было выявлено, что математическая статистика основана на теории вероятности, изучающая методы сбора и обработки результатов наблюдений, с целью выявления закономерностей. Я рассматривала методы, позволяющие делать научно обоснованные выводы о числовых значениях параметров распределения генеральной совокупности по случайной выборке, о неизвестной функции распределения и плотности распределения, о корреляционной зависимости одной случайной величины Х от другой У по случайным выборкам, проверять статистические гипотезы на основе выборочных данных.

Список использованной литературы

1. Гмурман В.Е. Теория вероятностей и математическая статистика. Учеб. пособие для вузов. - М.: Высш. школа, 1997. - 479 с.

2. Старикова Т.Т., Троценко Л.С.Высшая математика. Математическая статистика. - Красноярск: СибГТУ, 2002. - 160 с.

3. Беличенко О.М., Шушерина О.А., Яхно Г.Н. Математическая статистика: индивидуальные задания и методические указания для студентов инженерно-технических и экономических специальностей дневной формы обучения. - Красноярск: СибГТУ, 2002. - 38 с.

Размещено на Allbest.ru


Подобные документы

  • Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа [850,9 K], добавлен 18.01.2016

  • Методы регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений. Обзор задач математической статистики. Закон распределения случайной величины. Проверка правдоподобия гипотез.

    презентация [113,3 K], добавлен 01.11.2013

  • Ознакомление с механизмом проверки гипотезы для случая единственной выборки, двух и нескольких независимых выборок. Проверка совпадений карт, выбор фильмов разных жанров. Обоснование результатов, полученных после проверки статистических гипотез.

    курсовая работа [726,2 K], добавлен 26.02.2015

  • Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.

    методичка [433,3 K], добавлен 02.03.2010

  • Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа [132,1 K], добавлен 24.05.2013

  • Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа [241,3 K], добавлен 10.04.2011

  • Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат [332,8 K], добавлен 10.12.2010

  • Понятие и сущность многомерной случайной величины, ее отличие от одномерной и применение для решения статистических задач. Особенности условной вероятности, расчет и определение суммы всех вероятностей. Математический закон распределения событий.

    презентация [47,2 K], добавлен 01.11.2013

  • Определение вероятность срабатывания устройств при аварии. Расчет математического ожидания, дисперсии и функции распределения по заданному ряду распределения. Построение интервального статистического ряда распределения значений статистических данных.

    контрольная работа [148,8 K], добавлен 12.02.2012

  • Алгоритм определения вероятности события и выполнения статистических ожиданий. Оценка возможных значений случайной величины и их вероятности. Расчет математического ожидания, дисперсии и среднего квадратического отклонения. Анализ характеристик признака.

    контрольная работа [263,8 K], добавлен 13.01.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.