Статистическая обработка данных в пакете Excel

Статистический анализ вариационных рядов распределения. Графическое представление данных. Расчет средних величин (арифметической, гармонической, геометрической и квадратической). Поиск моды и медианы в дискретном и интервальном вариационных рядах.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 22.10.2017
Размер файла 522,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

30

Размещено на http://www.allbest.ru/

Министерство сельского хозяйства Российской Федерации

Ветеринарно-биологический факультет

Кафедра информационных технологий, математики и физики

Контрольная работа

На тему: "Статистическая обработка данных в пакете Excel"

По дисциплине: "Информатика с основами математической биостатистики (содержание АСТ И АЛТ)"

Выполнила: студентка 1 курса 8 группы

очного отделения факультета ветеринарной медицины

Рожновская Алина Евгеньевна

Преподаватель:

Устюжанина Розалия Рифовна

Москва 2015 г.

Содержание

  • Статистический анализ вариационных рядов распределения (содержание АСТ и АЛТ)
    • Цель работы
  • Исходные данные
  • Вариационные ряды распределения
  • Графическое представление данных
  • Расчет средних величин
    • 1. Средняя арифметическая
    • 2. Средняя гармоническая
    • 3. Средняя геометрическая
    • 4. Средняя квадратическая
    • 5. Мода и медиана
  • Корреляционный анализ
    • Парная корреляция
  • Список литературы

Статистический анализ вариационных рядов распределения (содержание АСТ и АЛТ)

Цель работы

Цель данной работы заключается в углублении теоретических знаний, полученных на лекциях, и получение практических навыков в области статистической обработки экспериментальных данных.

В данной работе необходимо продемонстрировать следующие умения:

1. Построить интервальные ряды распределения признаков, отобразить их графически в виде гистограмм, полигонов и кумулят;

2. Для анализа рядов распределения рассчитать средние величины (среднюю арифметическую, моду, медиану), выборочные показатели вариации (дисперсию, среднее квадратическое отклонение, коэффициент вариации) и показатели распределения (коэффициенты асимметрии и эксцесса);

3. Используя данные интервального ряда распределения одного из признаков с помощью дисперсионного анализа рассчитать достоверность разницы в значении одного признака в зависимости от значения другого признака;

4. С помощью корреляционного анализа определить влияние признаков друг на друга. Для этого постройте линейное уравнение регрессии, рассчитать коэффициент корреляции и оцените его достоверность с помощью t-критерия Стьюдента и F-критерия Фишера;

Исходные данные

Таблица №1

Содержание АСТ

Содержание АЛТ

155

54,9

164

57,3

166

57,6

166

59

169

66,8

170

67,9

176

68

180

68,6

197

69,1

201

70

203

70,5

205

70,7

206

73,1

212

73,4

213

75,5

217

75,5

222

78,8

235

79,8

236

80,1

238

82,6

262

86,2

278

89,2

284

90,2

318

91

340

108

Вариационные ряды распределения

Вариационным рядом или рядом распределения называют упорядоченное распределение единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Существует 3 вида ряда распределения:

1) ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака; если численность единиц совокупности достаточно велика ранжированный ряд становится громоздким, и в таких случаях ряд распределения строится с помощью группировки единиц совокупности по значениям изучаемого признака (если признак принимает небольшое число значений, то строится дискретный ряд, а в противном случае - интервальный ряд);

2) дискретный ряд - это таблица, состоящая из двух столбцов (строк) - конкретных значений варьирующего признака Xi и числа единиц совокупности с данным значением признака fi - частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака;

3) интервальный ряд - это таблица, состоящая из двух столбцов (строк) - интервалов варьирующего признака Xi и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа в общей численности совокупностей (частостей).

Размах вариации - наиболее простая характеристика вариации признака. Это разность между наибольшим и наименьшим значением признака изучаемой совокупности.

Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:

,

где h - величина интервала; Xмax и Xmin - максимальное и минимальное значения в совокупности; k - число групп.

При построении интервального ряда распределения необходимо выбирать оптимальное число групп (интервалов признака) и устанавливать длину (размах) интервала.

Ранжированный ряд распределения по содержанию АСТ:

Таблица №2

АСТ

155

164

166

166

169

170

176

180

197

201

203

205

206

212

213

217

222

235

236

238

262

278

284

318

340

Интервальный ряд распределения АСТ:

Таблица №3

Минимальное значение

155

Максимальное значение

340

Размах вариации

185

Число групп вариации

5,643956709

Число групп вариации после округления

6

Длина интервала

30,83333333

Длина интервала после округления

31

Интервальный ряд распределения АСТ:

Таблица №4

Номер интервала

Группа животных по массе тела, Xi

Число животных

Середина интервала

Накопленная частота

нижняя граница

верхняя граница

fi

Хi'

fi'

1

155

186

8

170,5

8

2

186

217

8

201,5

16

3

217

248

4

232,5

20

4

248

279

2

263,5

22

5

279

310

1

294,5

23

6

310

341

2

325,5

25

7

341

372

0

356,5

25

Итого

25

x

x

Графическое представление данных

Гистограмма в математической биостатистике - это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него. Гистограммы применяются в основном для визуализации данных на начальном этапе статистической обработки. Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Величина каждой доли, отнесенная к величине интервала, принимается в качестве оценки значения плотности распределения на соответствующем интервале.

Полигон частот в математической биостатистике) - один из способов графического представления плотности вероятности случайной величины. Представляет собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов. Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат - накопленные частоты или частости.

Карман

Частота

186

8

217

8

248

4

279

2

310

1

341

2

372

0

Еще

0

Рис.1 Гистограмма распределения АСТ

Рис.2 Полигон распределения АСТ

Рис.3 Кумулята распределения АСТ

Вывод: На гистограмме мы видим, что 2 животных имеют максмальный показатель АСТ от 155 до 186, а 1 животное имеет минимальный показатель АСТ от 279 до 310.

Ранжированный ряд распределения по содержанию АЛТ:

Таблица №5

АЛТ

54,9

57,3

57,6

59

66,8

67,9

68

68,6

69,1

70

70,5

70,7

73,1

73,4

75,5

75,5

78,8

79,8

80,1

82,6

86,2

89,2

90,2

91

108

Интервальный ряд распределения АЛТ:

Таблица №6

Минимальное значение

54,9

Максимальное значение

108

Размах вариации

53,1

Число групп вариации

5,643956709

Число групп вариации после округления

6

Длина интервала

8,85

Длина интервала после округления

9

Интервальный ряд распределения АЛТ:

Таблица №7

Номер интервала

Группа животных по массе печени, Xi

Число животных

Середина интервала

Накопленная частота

нижняя граница

верхняя граница

fi

Хi'

fi'

1

54,9

63,9

4

59,4

4

2

63,9

72,9

8

68,4

12

3

72,9

81,9

7

77,4

19

4

81,9

90,9

4

86,4

23

5

90,9

99,9

1

95,4

24

6

99,9

108,9

1

104,4

25

7

108,9

117,9

0

113,4

25

Итого

25

x

x

Графическое представление данных

Карман

Частота

63,9

4

72,9

8

81,9

7

90,9

4

99,9

1

108,9

1

117,9

0

Еще

0

Рис.4 Гистограмма распределения АЛТ

Рис.5 Полигон распределения АЛТ

Рис.6 Кумулята распределения АЛТ

Вывод: На гистограмме мы видим, что 1 животное имеет максмальный показатель АЛТ от 63,9 до 72,9, а 2 животных имеют минимальный показатель АЛТ от 90,9 до 100,9.

Расчет средних величин

1. Средняя арифметическая

Средняя арифметическая является наиболее распространенной среди средних величин. Ее применяют в тех случаях, когда даны отдельные объекты с индивидуальными значениями признаков, выраженными абсолютными показателями. Среднюю арифметическую определяют как отношение суммы индивидуальных значений признаков к их количеству.

Среднюю арифметическую определяют по формуле:

,

где средняя;

х варианты;

n число вариант.

2. Средняя гармоническая

Средняя гармоническая является обратной величиной средней арифметической, рассчитанной из обратных значений признака. В качестве частот в этом случае используются не единицы совокупности, а произведения этих единиц на значения признака.

Среднюю гармоническую применяют в тех случаях, когда известны индивидуальные значения и объемы признака, а частоты неизвестны.

Формула средней гармонической имеет вид:

,

где средняя;

х варианты;

w объемы явления.

3. Средняя геометрическая

Средняя геометрическая - это средняя, в которой общий объем явления представляет произведение индивидуальных значений признака. Такую среднюю применяют в основном для расчета среднего темпа изменения какого-либо показателя за определенный промежуток времени.

Формула расчета средней геометрической имеет вид:

,

где средняя; х варианты; n число вариант; П - произведение.

4. Средняя квадратическая

Среднюю квадратическую используют для признаков, выраженных линейными мерами площади. Например, для определения среднего диаметра корзинок подсолнечника, величины листьев, размера колоний микроорганизмов и др.

Среднюю квадратическую определяют по формуле:

,

где средняя; х варианты; n число вариант.

5. Мода и медиана

Средние величины, описанные выше, являются обобщающими характеристиками совокупности по тому или иному признаку. Вспомогательными характеристиками являются, так называемые, структурные средние, к которым относятся мода, квартили, децили, медиана и др. Наиболее употребляемыми являются мода и медиана.

Мода - это величина, которая встречается в совокупности наиболее часто, то есть признак с наибольшей частотой. Этот показатель используется в тех случаях, когда требуется охарактеризовать наиболее часто встречающуюся величину признака (наиболее распространенный размер животноводческих ферм на сельскохозяйственных предприятиях, преобладающие цены на сельскохозяйственную продукцию и т.п.).

Медианой называется величина, делящая численность упорядоченного вариационного ряда (расположенного в порядке возрастания или убывания признака) на две равные части. Медиана характеризует количественную границу значений изменяющегося признака, которыми обладает половина единиц совокупности.

В дискретном вариационном ряду модой является признак с наибольшей частотой. Медианой является признак с номером, который находят путем деления суммы частот упорядоченного вариационного ряда на два и добавления 0,5.

В интервальном вариационном ряду моду находят по формуле:

,

где Мо мода;

хМо нижняя граница модального интервала;

hМо величина модального интервала;

fМо частота модального интервала;

fМо-1 частота интервала, предшествующего модальному;

fМо+1 частота интервала, следующего за модальным.

Модальным интервалом является интервал с наибольшей частотой.

Формула расчета медианы в интервальном вариационном ряду:

,

где Ме медиана; хМе нижняя граница медианного интервала; hМе величина медианного интервала; сумма частот;

sМе?1 сумма частот, накопленных в интервалах, предшествующих медианному;

fМе частота медианного интервала.

Медианным интервалом является интервал, накопленная частота которого равна или превышает половину суммы частот.

Средние величины содержания АСТ:

Таблица №8

Общая масса

5413

Средняя арифметическая

216,52

Средняя геометрическая

211,6985558

Средняя гармоническая

207,3246584

Сумма квадратов

1229309

Средняя квадратичная

49172,36

Медиана

206

Мода

166

Средние величины содержания АЛТ:

вариационный ряд статистический анализ

Таблица №9

Общая масса

1863,8

Средняя арифметическая

74,552

Средняя геометрическая

73,619748

Средняя гармоническая

72,71730956

Сумма квадратов

142558,26

Средняя квадратичная

5702,3304

Медиана

73,1

Мода

75,5

Вывод: Таким образом, расчет средних величин показал, что у АСТ: средняя арифметическая - 216,52; средняя геометрическая - 211,6985558; средняя квадратичная - 49172,36; мода - 166; медиана - 206. Для содержания АЛТ показатели следующие: средняя арифметическая - 74,552; средняя геометрическая - 73,619748; средняя квадратичная - 5702,3304; мода - 75,5; медиана - 73,1.

Корреляционный анализ

Парная корреляция

Цель: Определять связь между содержанием АСТ и АЛТ.

При парной корреляции устанавливают зависимость между двумя признаками, один из которых является факторным, другой результативным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим подобрать математическое уравнение, выражающее эту связь.

Вопрос о форме связи можно решить несколькими способами: на основе логического анализа, по данным статистической группировки или графическим способом. При парной корреляции предпочтителен последний способ, так как он позволяет выявить не только характер связи, но дает представление о степени связи.

После того, как определен вид уравнения связи, необходимо найти числовые значения его параметров. При вычислении параметров применяют различные методы: метод наименьших квадратов, метод средних, метод наименьшего предельного уклонения и др. Наиболее распространенным является метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:

,

где y - фактическое значение результативного признака;

расчетное значение результативного признака.

Показатель, характеризующий отношение вариаций расчетных и исходных значений результативного признака, называют индексом корреляции. Его рассчитывают по формуле:

,

где I - индекс корреляции;

общая дисперсия результативного признака (средний квадрат отклонений фактических значений у от средней );

факторная дисперсия результативного признака, рассчитанного по уравнению регрессии (средний квадрат отклонений расчетных значений от средней );

n - численность совокупности.

Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе корреляции равном 1 взаимосвязь между признаками является функциональной. Если же индекс корреляции равен 0, то связь между признаками отсутствует.

Поскольку факторная дисперсия показывает вариацию результативного признака, зависящую от факторного признака, то можно рассчитать остаточную дисперсию, показывающую вариацию других неучтенных факторов. Она равна разнице между общей и факторной дисперсиями:

,

где остаточная дисперсия.

Остаточная дисперсия показывает вариацию фактических значений результативного признака относительно расчетных значений, то есть колеблемость фактических значений относительно линии регрессии. Чем меньше будет эта колеблемость, тем в большей степени уравнение регрессии отражает связь между признаками.

Формула индекса корреляции, рассчитанного на основе остаточной и общей дисперсий, имеет вид:

.

Для линейной регрессии индекс корреляции называют коэффициентом корреляции. Формула его при парной корреляции после преобразования имеет вид:

,

где r - коэффициент корреляции;

средние значения факторного и результативного признаков;

среднее значение произведений факторного и результативного признаков;

средние квадратические отклонения факторного и результативного признаков.

В отличие от индекса корреляции коэффициент корреляции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от ?1 до +1. Если коэффициент корреляции положительный, то связь между признаками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).

Квадраты индекса корреляции и коэффициента корреляции называют соответственно индексом детерминации (I2) и коэффициентом детерминации (r2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.

Так как надежность изучения связей в значительной степени зависит от количества сопоставляемых данных, необходимо измерять существенность полученного уравнения регрессии и индекса (коэффициента) корреляции. Показатели корреляции, исчисленные для ограниченной по объему совокупности, могут быть искажены действием случайных факторов.

Существенность индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оценена с помощью дисперсионного анализа (F-критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F-критерий в данном случае рассчитывают по формуле:

,

где выборочная факторная дисперсия;

выборочная остаточная дисперсия;

n - численность выборочной совокупности;

k - число параметров в уравнении регрессии.

Значение F-критерия можно получить также, используя значения индекса или коэффициента корреляции:

; .

Полученное значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет , а для остаточной дисперсии Если фактическое значение F-критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в полной мере отражает эту связь. Если фактическое значение F-критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.

Для оценки значимости индекса (коэффициента) корреляции и уравнения регрессии также используют t-критерий Стьюдента, который для больших выборок рассчитывают по формулам:

Для малых выборок формулы имеют вид:

Также, как при дисперсионном анализе, фактическое значение t-критерия сравнивают с табличным с учетом числа степеней свободы вариации = n k. Если фактическое значение t-критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.

Зависимость содержания АСТ от содержания АЛТ:

Рис.7 Точечный график

Таблица №10

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,966483098

R-квадрат

0,934089579

Нормированный R-квадрат

0,931093651

Стандартная ошибка

3,09916035

Наблюдения

24

Дисперсионный анализ

df

SS

Регрессия

1

2994,644096

Остаток

22

211,3054873

Итого

23

3205,949583

MS

F

Значимость F

2994,644096

311,7863666

1,76941E-14

9,604794876

Коэффициенты

Стандартная ошибка

t-статистика

Y-пересечение

23,46217104

3,007052506

7,802381566

155

0,236935697

0,013418437

17,65747339

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

8,91913E-08

17,22592586

29,69841622

17,22592586

29,69841622

1,76941E-14

0, 209107562

0,264763832

0, 209107562

0,264763832

Список литературы

1. Никитина И.Ш. "Математическая статистика" - М.: ИНФРА-М, 2001 - с. 31-35

2. Гусаров В.М. "Статистика" - М.: ЮНИТИ-ДАНА, 2003 - с.463

3. Калинина В.Н. "Математическая статистика" - М.: Дрофа, 2002 - с.79-125

4. Джугели Т.П., Кутликова И.В., Федькина Т.В. "Статистическая обработка экспериментальных данных: Методические указания", 2008 г.

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.