Статистическая обработка данных в пакете Excel
Статистический анализ вариационных рядов распределения. Графическое представление данных. Расчет средних величин (арифметической, гармонической, геометрической и квадратической). Поиск моды и медианы в дискретном и интервальном вариационных рядах.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 22.10.2017 |
Размер файла | 522,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
30
Размещено на http://www.allbest.ru/
Министерство сельского хозяйства Российской Федерации
Ветеринарно-биологический факультет
Кафедра информационных технологий, математики и физики
Контрольная работа
На тему: "Статистическая обработка данных в пакете Excel"
По дисциплине: "Информатика с основами математической биостатистики (содержание АСТ И АЛТ)"
Выполнила: студентка 1 курса 8 группы
очного отделения факультета ветеринарной медицины
Рожновская Алина Евгеньевна
Преподаватель:
Устюжанина Розалия Рифовна
Москва 2015 г.
Содержание
- Статистический анализ вариационных рядов распределения (содержание АСТ и АЛТ)
- Цель работы
- Исходные данные
- Вариационные ряды распределения
- Графическое представление данных
- Расчет средних величин
- 1. Средняя арифметическая
- 2. Средняя гармоническая
- 3. Средняя геометрическая
- 4. Средняя квадратическая
- 5. Мода и медиана
- Корреляционный анализ
- Парная корреляция
- Список литературы
Статистический анализ вариационных рядов распределения (содержание АСТ и АЛТ)
Цель работы
Цель данной работы заключается в углублении теоретических знаний, полученных на лекциях, и получение практических навыков в области статистической обработки экспериментальных данных.
В данной работе необходимо продемонстрировать следующие умения:
1. Построить интервальные ряды распределения признаков, отобразить их графически в виде гистограмм, полигонов и кумулят;
2. Для анализа рядов распределения рассчитать средние величины (среднюю арифметическую, моду, медиану), выборочные показатели вариации (дисперсию, среднее квадратическое отклонение, коэффициент вариации) и показатели распределения (коэффициенты асимметрии и эксцесса);
3. Используя данные интервального ряда распределения одного из признаков с помощью дисперсионного анализа рассчитать достоверность разницы в значении одного признака в зависимости от значения другого признака;
4. С помощью корреляционного анализа определить влияние признаков друг на друга. Для этого постройте линейное уравнение регрессии, рассчитать коэффициент корреляции и оцените его достоверность с помощью t-критерия Стьюдента и F-критерия Фишера;
Исходные данные
Таблица №1
Содержание АСТ |
Содержание АЛТ |
|
155 |
54,9 |
|
164 |
57,3 |
|
166 |
57,6 |
|
166 |
59 |
|
169 |
66,8 |
|
170 |
67,9 |
|
176 |
68 |
|
180 |
68,6 |
|
197 |
69,1 |
|
201 |
70 |
|
203 |
70,5 |
|
205 |
70,7 |
|
206 |
73,1 |
|
212 |
73,4 |
|
213 |
75,5 |
|
217 |
75,5 |
|
222 |
78,8 |
|
235 |
79,8 |
|
236 |
80,1 |
|
238 |
82,6 |
|
262 |
86,2 |
|
278 |
89,2 |
|
284 |
90,2 |
|
318 |
91 |
|
340 |
108 |
Вариационные ряды распределения
Вариационным рядом или рядом распределения называют упорядоченное распределение единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
Существует 3 вида ряда распределения:
1) ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака; если численность единиц совокупности достаточно велика ранжированный ряд становится громоздким, и в таких случаях ряд распределения строится с помощью группировки единиц совокупности по значениям изучаемого признака (если признак принимает небольшое число значений, то строится дискретный ряд, а в противном случае - интервальный ряд);
2) дискретный ряд - это таблица, состоящая из двух столбцов (строк) - конкретных значений варьирующего признака Xi и числа единиц совокупности с данным значением признака fi - частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака;
3) интервальный ряд - это таблица, состоящая из двух столбцов (строк) - интервалов варьирующего признака Xi и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа в общей численности совокупностей (частостей).
Размах вариации - наиболее простая характеристика вариации признака. Это разность между наибольшим и наименьшим значением признака изучаемой совокупности.
Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака (в пределах от минимальной до максимальной варианты) на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:
,
где h - величина интервала; Xмax и Xmin - максимальное и минимальное значения в совокупности; k - число групп.
При построении интервального ряда распределения необходимо выбирать оптимальное число групп (интервалов признака) и устанавливать длину (размах) интервала.
Ранжированный ряд распределения по содержанию АСТ:
Таблица №2
АСТ |
|
155 |
|
164 |
|
166 |
|
166 |
|
169 |
|
170 |
|
176 |
|
180 |
|
197 |
|
201 |
|
203 |
|
205 |
|
206 |
|
212 |
|
213 |
|
217 |
|
222 |
|
235 |
|
236 |
|
238 |
|
262 |
|
278 |
|
284 |
|
318 |
|
340 |
Интервальный ряд распределения АСТ:
Таблица №3
Минимальное значение |
155 |
|
Максимальное значение |
340 |
|
Размах вариации |
185 |
|
Число групп вариации |
5,643956709 |
|
Число групп вариации после округления |
6 |
|
Длина интервала |
30,83333333 |
|
Длина интервала после округления |
31 |
Интервальный ряд распределения АСТ:
Таблица №4
Номер интервала |
Группа животных по массе тела, Xi |
Число животных |
Середина интервала |
Накопленная частота |
||
нижняя граница |
верхняя граница |
fi |
Хi' |
fi' |
||
1 |
155 |
186 |
8 |
170,5 |
8 |
|
2 |
186 |
217 |
8 |
201,5 |
16 |
|
3 |
217 |
248 |
4 |
232,5 |
20 |
|
4 |
248 |
279 |
2 |
263,5 |
22 |
|
5 |
279 |
310 |
1 |
294,5 |
23 |
|
6 |
310 |
341 |
2 |
325,5 |
25 |
|
7 |
341 |
372 |
0 |
356,5 |
25 |
|
Итого |
25 |
x |
x |
Графическое представление данных
Гистограмма в математической биостатистике - это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него. Гистограммы применяются в основном для визуализации данных на начальном этапе статистической обработки. Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Величина каждой доли, отнесенная к величине интервала, принимается в качестве оценки значения плотности распределения на соответствующем интервале.
Полигон частот в математической биостатистике) - один из способов графического представления плотности вероятности случайной величины. Представляет собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов. Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.
Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат - накопленные частоты или частости.
Карман |
Частота |
|
186 |
8 |
|
217 |
8 |
|
248 |
4 |
|
279 |
2 |
|
310 |
1 |
|
341 |
2 |
|
372 |
0 |
|
Еще |
0 |
Рис.1 Гистограмма распределения АСТ
Рис.2 Полигон распределения АСТ
Рис.3 Кумулята распределения АСТ
Вывод: На гистограмме мы видим, что 2 животных имеют максмальный показатель АСТ от 155 до 186, а 1 животное имеет минимальный показатель АСТ от 279 до 310.
Ранжированный ряд распределения по содержанию АЛТ:
Таблица №5
АЛТ |
|
54,9 |
|
57,3 |
|
57,6 |
|
59 |
|
66,8 |
|
67,9 |
|
68 |
|
68,6 |
|
69,1 |
|
70 |
|
70,5 |
|
70,7 |
|
73,1 |
|
73,4 |
|
75,5 |
|
75,5 |
|
78,8 |
|
79,8 |
|
80,1 |
|
82,6 |
|
86,2 |
|
89,2 |
|
90,2 |
|
91 |
|
108 |
Интервальный ряд распределения АЛТ:
Таблица №6
Минимальное значение |
54,9 |
|
Максимальное значение |
108 |
|
Размах вариации |
53,1 |
|
Число групп вариации |
5,643956709 |
|
Число групп вариации после округления |
6 |
|
Длина интервала |
8,85 |
|
Длина интервала после округления |
9 |
Интервальный ряд распределения АЛТ:
Таблица №7
Номер интервала |
Группа животных по массе печени, Xi |
Число животных |
Середина интервала |
Накопленная частота |
||
нижняя граница |
верхняя граница |
fi |
Хi' |
fi' |
||
1 |
54,9 |
63,9 |
4 |
59,4 |
4 |
|
2 |
63,9 |
72,9 |
8 |
68,4 |
12 |
|
3 |
72,9 |
81,9 |
7 |
77,4 |
19 |
|
4 |
81,9 |
90,9 |
4 |
86,4 |
23 |
|
5 |
90,9 |
99,9 |
1 |
95,4 |
24 |
|
6 |
99,9 |
108,9 |
1 |
104,4 |
25 |
|
7 |
108,9 |
117,9 |
0 |
113,4 |
25 |
|
Итого |
25 |
x |
x |
Графическое представление данных
Карман |
Частота |
|
63,9 |
4 |
|
72,9 |
8 |
|
81,9 |
7 |
|
90,9 |
4 |
|
99,9 |
1 |
|
108,9 |
1 |
|
117,9 |
0 |
|
Еще |
0 |
Рис.4 Гистограмма распределения АЛТ
Рис.5 Полигон распределения АЛТ
Рис.6 Кумулята распределения АЛТ
Вывод: На гистограмме мы видим, что 1 животное имеет максмальный показатель АЛТ от 63,9 до 72,9, а 2 животных имеют минимальный показатель АЛТ от 90,9 до 100,9.
Расчет средних величин
1. Средняя арифметическая
Средняя арифметическая является наиболее распространенной среди средних величин. Ее применяют в тех случаях, когда даны отдельные объекты с индивидуальными значениями признаков, выраженными абсолютными показателями. Среднюю арифметическую определяют как отношение суммы индивидуальных значений признаков к их количеству.
Среднюю арифметическую определяют по формуле:
,
где средняя;
х варианты;
n число вариант.
2. Средняя гармоническая
Средняя гармоническая является обратной величиной средней арифметической, рассчитанной из обратных значений признака. В качестве частот в этом случае используются не единицы совокупности, а произведения этих единиц на значения признака.
Среднюю гармоническую применяют в тех случаях, когда известны индивидуальные значения и объемы признака, а частоты неизвестны.
Формула средней гармонической имеет вид:
,
где средняя;
х варианты;
w объемы явления.
3. Средняя геометрическая
Средняя геометрическая - это средняя, в которой общий объем явления представляет произведение индивидуальных значений признака. Такую среднюю применяют в основном для расчета среднего темпа изменения какого-либо показателя за определенный промежуток времени.
Формула расчета средней геометрической имеет вид:
,
где средняя; х варианты; n число вариант; П - произведение.
4. Средняя квадратическая
Среднюю квадратическую используют для признаков, выраженных линейными мерами площади. Например, для определения среднего диаметра корзинок подсолнечника, величины листьев, размера колоний микроорганизмов и др.
Среднюю квадратическую определяют по формуле:
,
где средняя; х варианты; n число вариант.
5. Мода и медиана
Средние величины, описанные выше, являются обобщающими характеристиками совокупности по тому или иному признаку. Вспомогательными характеристиками являются, так называемые, структурные средние, к которым относятся мода, квартили, децили, медиана и др. Наиболее употребляемыми являются мода и медиана.
Мода - это величина, которая встречается в совокупности наиболее часто, то есть признак с наибольшей частотой. Этот показатель используется в тех случаях, когда требуется охарактеризовать наиболее часто встречающуюся величину признака (наиболее распространенный размер животноводческих ферм на сельскохозяйственных предприятиях, преобладающие цены на сельскохозяйственную продукцию и т.п.).
Медианой называется величина, делящая численность упорядоченного вариационного ряда (расположенного в порядке возрастания или убывания признака) на две равные части. Медиана характеризует количественную границу значений изменяющегося признака, которыми обладает половина единиц совокупности.
В дискретном вариационном ряду модой является признак с наибольшей частотой. Медианой является признак с номером, который находят путем деления суммы частот упорядоченного вариационного ряда на два и добавления 0,5.
В интервальном вариационном ряду моду находят по формуле:
,
где Мо мода;
хМо нижняя граница модального интервала;
hМо величина модального интервала;
fМо частота модального интервала;
fМо-1 частота интервала, предшествующего модальному;
fМо+1 частота интервала, следующего за модальным.
Модальным интервалом является интервал с наибольшей частотой.
Формула расчета медианы в интервальном вариационном ряду:
,
где Ме медиана; хМе нижняя граница медианного интервала; hМе величина медианного интервала; сумма частот;
sМе?1 сумма частот, накопленных в интервалах, предшествующих медианному;
fМе частота медианного интервала.
Медианным интервалом является интервал, накопленная частота которого равна или превышает половину суммы частот.
Средние величины содержания АСТ:
Таблица №8
Общая масса |
5413 |
|
Средняя арифметическая |
216,52 |
|
Средняя геометрическая |
211,6985558 |
|
Средняя гармоническая |
207,3246584 |
|
Сумма квадратов |
1229309 |
|
Средняя квадратичная |
49172,36 |
|
Медиана |
206 |
|
Мода |
166 |
Средние величины содержания АЛТ:
вариационный ряд статистический анализ
Таблица №9
Общая масса |
1863,8 |
|
Средняя арифметическая |
74,552 |
|
Средняя геометрическая |
73,619748 |
|
Средняя гармоническая |
72,71730956 |
|
Сумма квадратов |
142558,26 |
|
Средняя квадратичная |
5702,3304 |
|
Медиана |
73,1 |
|
Мода |
75,5 |
Вывод: Таким образом, расчет средних величин показал, что у АСТ: средняя арифметическая - 216,52; средняя геометрическая - 211,6985558; средняя квадратичная - 49172,36; мода - 166; медиана - 206. Для содержания АЛТ показатели следующие: средняя арифметическая - 74,552; средняя геометрическая - 73,619748; средняя квадратичная - 5702,3304; мода - 75,5; медиана - 73,1.
Корреляционный анализ
Парная корреляция
Цель: Определять связь между содержанием АСТ и АЛТ.
При парной корреляции устанавливают зависимость между двумя признаками, один из которых является факторным, другой результативным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим подобрать математическое уравнение, выражающее эту связь.
Вопрос о форме связи можно решить несколькими способами: на основе логического анализа, по данным статистической группировки или графическим способом. При парной корреляции предпочтителен последний способ, так как он позволяет выявить не только характер связи, но дает представление о степени связи.
После того, как определен вид уравнения связи, необходимо найти числовые значения его параметров. При вычислении параметров применяют различные методы: метод наименьших квадратов, метод средних, метод наименьшего предельного уклонения и др. Наиболее распространенным является метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:
,
где y - фактическое значение результативного признака;
расчетное значение результативного признака.
Показатель, характеризующий отношение вариаций расчетных и исходных значений результативного признака, называют индексом корреляции. Его рассчитывают по формуле:
,
где I - индекс корреляции;
общая дисперсия результативного признака (средний квадрат отклонений фактических значений у от средней );
факторная дисперсия результативного признака, рассчитанного по уравнению регрессии (средний квадрат отклонений расчетных значений от средней );
n - численность совокупности.
Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе корреляции равном 1 взаимосвязь между признаками является функциональной. Если же индекс корреляции равен 0, то связь между признаками отсутствует.
Поскольку факторная дисперсия показывает вариацию результативного признака, зависящую от факторного признака, то можно рассчитать остаточную дисперсию, показывающую вариацию других неучтенных факторов. Она равна разнице между общей и факторной дисперсиями:
,
где остаточная дисперсия.
Остаточная дисперсия показывает вариацию фактических значений результативного признака относительно расчетных значений, то есть колеблемость фактических значений относительно линии регрессии. Чем меньше будет эта колеблемость, тем в большей степени уравнение регрессии отражает связь между признаками.
Формула индекса корреляции, рассчитанного на основе остаточной и общей дисперсий, имеет вид:
.
Для линейной регрессии индекс корреляции называют коэффициентом корреляции. Формула его при парной корреляции после преобразования имеет вид:
,
где r - коэффициент корреляции;
средние значения факторного и результативного признаков;
среднее значение произведений факторного и результативного признаков;
средние квадратические отклонения факторного и результативного признаков.
В отличие от индекса корреляции коэффициент корреляции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от ?1 до +1. Если коэффициент корреляции положительный, то связь между признаками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).
Квадраты индекса корреляции и коэффициента корреляции называют соответственно индексом детерминации (I2) и коэффициентом детерминации (r2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.
Так как надежность изучения связей в значительной степени зависит от количества сопоставляемых данных, необходимо измерять существенность полученного уравнения регрессии и индекса (коэффициента) корреляции. Показатели корреляции, исчисленные для ограниченной по объему совокупности, могут быть искажены действием случайных факторов.
Существенность индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оценена с помощью дисперсионного анализа (F-критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F-критерий в данном случае рассчитывают по формуле:
,
где выборочная факторная дисперсия;
выборочная остаточная дисперсия;
n - численность выборочной совокупности;
k - число параметров в уравнении регрессии.
Значение F-критерия можно получить также, используя значения индекса или коэффициента корреляции:
; .
Полученное значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет , а для остаточной дисперсии Если фактическое значение F-критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в полной мере отражает эту связь. Если фактическое значение F-критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.
Для оценки значимости индекса (коэффициента) корреляции и уравнения регрессии также используют t-критерий Стьюдента, который для больших выборок рассчитывают по формулам:
Для малых выборок формулы имеют вид:
Также, как при дисперсионном анализе, фактическое значение t-критерия сравнивают с табличным с учетом числа степеней свободы вариации = n k. Если фактическое значение t-критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.
Зависимость содержания АСТ от содержания АЛТ:
Рис.7 Точечный график
Таблица №10
ВЫВОД ИТОГОВ |
|||
Регрессионная статистика |
|
||
Множественный R |
0,966483098 |
||
R-квадрат |
0,934089579 |
||
Нормированный R-квадрат |
0,931093651 |
||
Стандартная ошибка |
3,09916035 |
||
Наблюдения |
24 |
||
Дисперсионный анализ |
|||
|
df |
SS |
|
Регрессия |
1 |
2994,644096 |
|
Остаток |
22 |
211,3054873 |
|
Итого |
23 |
3205,949583 |
MS |
F |
Значимость F |
|
2994,644096 |
311,7863666 |
1,76941E-14 |
|
9,604794876 |
|||
Коэффициенты |
Стандартная ошибка |
t-статистика |
||
Y-пересечение |
23,46217104 |
3,007052506 |
7,802381566 |
|
155 |
0,236935697 |
0,013418437 |
17,65747339 |
P-Значение |
Нижние 95% |
Верхние 95% |
Нижние 95,0% |
Верхние 95,0% |
|
8,91913E-08 |
17,22592586 |
29,69841622 |
17,22592586 |
29,69841622 |
|
1,76941E-14 |
0, 209107562 |
0,264763832 |
0, 209107562 |
0,264763832 |
Список литературы
1. Никитина И.Ш. "Математическая статистика" - М.: ИНФРА-М, 2001 - с. 31-35
2. Гусаров В.М. "Статистика" - М.: ЮНИТИ-ДАНА, 2003 - с.463
3. Калинина В.Н. "Математическая статистика" - М.: Дрофа, 2002 - с.79-125
4. Джугели Т.П., Кутликова И.В., Федькина Т.В. "Статистическая обработка экспериментальных данных: Методические указания", 2008 г.
Размещено на Allbest.ru
Подобные документы
Методика графического отображения табличных данных MS Excel. Создание и редактирование диаграмм. Виды диаграмм, их практическое применение. Возможности программы, последовательность действии при стандартных и специальных операциях. Элементы диаграммы.
лабораторная работа [13,9 K], добавлен 16.11.2008Математическая статистика. Выборочная функция распределения. Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данных. Анализ однородности выборки. Корреляционный, регрессионный анализ экспериментальных данных.
курсовая работа [473,6 K], добавлен 22.12.2015Особенности работы с данными с MS Excel. Ввод данных в ячейку из раскрывающегося списка. Проверка содержимого ячеек при вводе с клавиатуры. Поиск ячеек со встроенной проверкой значений. Автоматическая обработка данных. Подведение промежуточных итогов.
презентация [1,8 M], добавлен 16.10.2013Встроенные функции Excel, их статистический анализ. Организации данных в таблице для документирования и графического представления информации. Создание базы данных "Автомагазин". Построение логических конструкций, создание графиков и диаграмм в MS Excel.
курсовая работа [711,7 K], добавлен 31.07.2014Средства первичной обработки данных MS Excel. Сортировка связанных областей. Виды поиска: по формату; по содержанию. Главные средства фильтрации. Использование форм в поиске записей. Целостная обработка данных таблицы на примере телефонного справочника.
курсовая работа [426,1 K], добавлен 29.11.2010Обнаружение грубых погрешностей. Проверка случайности и независимости результатов измерений в выборке. Приближенная проверка гипотезы о нормальном распределении экспериментальных данных. Проверка гипотезы о равенстве дисперсий и средних значений.
курсовая работа [1,1 M], добавлен 01.07.2011Информационные методы обработки данных в Excel. Источники и организация данных. Внутренние источники данных. Методики подготовки данных к анализу средствами Excel. Обработка списков типа "один объект" - "одна запись" и "один объект" - "несколько записей".
реферат [798,6 K], добавлен 13.01.2011Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Определение (задание структуры) данных. Обработка данных. Управление данными. Microsoft Access - нечто большее, чем СУБД. Проектирование, создание и управление базой данных на примере переплетной мастерской в пакете MS Access.
курсовая работа [470,8 K], добавлен 30.10.2002Обработка информации в электронных таблицах Excel или списках, основные понятия и требования к спискам, экономико-математические приложения Excel. Решение уравнений и задач оптимизации: подбор параметров, команда "Поиск решения", диспетчер сценариев.
реферат [704,3 K], добавлен 08.11.2010