Особенность проведения статистического анализа
Изучение простой и взвешенной средней величины. Нахождение статистической моды и медианы. Определение квадратического коэффициента вариации. Основной расчет общей дисперсии. Корреляционный анализ экспериментальных данных для двух случайных величин.
Рубрика | Экономика и экономическая теория |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 22.02.2019 |
Размер файла | 993,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ФАКУЛЬТЕТ «ЭКОНОМИКА И УПРАВЛЕНИЕ»
КАФЕДРА «ЭКОНОМИКА И ФИНАНСЫ»
КУРСОВАЯ РАБОТА
по дисциплине: «Общая теория статистики»
Выполнила студентка:
Горшкова М.А.
Руководитель:
Деркаченко В.Н.
Пенза 2017
В современном обществе важную роль в механизме управления экономикой выполняет статистика. Независимо от уровня и стадии экономического развития, характера политической системы, статистика на протяжении нескольких сотен лет своего существования выступала как необходимый и эффективный инструмент государственного управления и в то же время как наука, исследующая количественную сторону массовых явлений. Особенностью статистики является то, что статистические данные сообщаются с помошью цифр, отображающих общественную жизнь во всем многообразии ее проявлений. При этом статистику, в первую очередь, интересуют те выводы, которые можно сделать на основе анализа надлежащим образом собранных и обработанных цифровых данных.
Развитие общественного производства, внутренней и внешней торговли, торговых и международных товарно-денежных отношений увеличило потребность в статистической информации. Это расширило сферу деятельности статистики, вело к совершенствованию ее приемов и методов, явилось стимулом для дальнейшего формирования учета и статистики.
Статистика выполняет следующие задачи:
1. сбор, обработка, анализ и хранение информации;
2. доведение обработанной информации до органов управления всех уровней;
3. ознакомление широкой общественности и населения с динамикой и дислокацией социально-экономических явлений в стране путем издания статистических сборников, справочников, обзоров, публикаций в печатных и электронных СМИ;
4. международное сопоставление уровня социально-экономического развития разных стран.
Таким образом, статистика играет важную роль в жизни общества. Проблема статистического анализа является актуальной, общественно значимой, так как статистика имеет прямую связь с экономической теорией и другими науками. Экономическая теория служит для определения основных экономических законов и категорий, а статистика является их доказательным инструментом. К основным функциям статистики относятся: аналитическая, учетная, распределительная, стимулирующая, контрольная, функция сравнения, оценочная и функция прогнозная.
Курсовая работа состоит из трех частей - средние величины и показатели вариации, корреляционный анализ, регрессионный анализ. В каждой из них частей будет подробно рассмотрена теория, необходимые расчеты, и сделан вывод.
Целью написания работы является расчет средних величин, показателей вариации, а также проведение корреляционно-регрессионного анализа. Основными задачами исследования в работе являются:
1. Теоретическое обоснование сущности, общих понятий и методов расчета средних величин;
2. Исследование системы показателей и информационной базы корреляционно-регрессионного анализа;
3. Выполнение расчетов.
Средние величины и показатели вариации
Средняя величина - это обобщающий показатель статистической совокупности, который погашает индивидуальные различия значений статистических величин, позволяя сравнивать разные совокупности между собой.
Существует 2 класса средних величин: степенные и структурные.
К структурным средним относятся мода и медиана, но наиболее часто применяются степенные средние различных видов.
Степенные средние могут быть простыми и взвешенными.
Простая средняя величина рассчитывается при наличии двух и более несгруппированных статистических величин, расположенных в произвольном порядке по следующей общей формуле:
Взвешенная средняя величина рассчитывается по сгруппированным статистическим величинам с использованием следующей общей формулы:
где X - значения отдельных статистических величин или середин группировочных интервалов;
m - показатель степени, от значения которого зависят следующие виды степенных средних величин:
Статистическая мода - это наиболее часто повторяющееся значение величины X в статистической совокупности.
Если X задан дискретно, то мода определяется без вычисления как значение признака с наибольшей частотой. В статистической совокупности бывает 2 и более моды, тогда она считается бимодальной (если моды две) или мультимодальной (если мод более двух), и это свидетельствует о неоднородности совокупности. Если X задан равными интервалами, то сначала определяется модальный интервал как интервал с наибольшей частотой f. Внутри этого интервала находят условное значение моды по формуле:
где Мо - мода;
ХНМо - нижняя граница модального интервала;
hМо - размах модального интервала (разность между его верхней и нижней границей);
fМо - частота модального интервала;
fМо-1 - частота интервала, предшествующего модальному;
fМо+1 - частота интервала, следующего за модальным.
Статистическая медиана - это значение величины X, которое делит упорядоченную по возрастанию или убыванию статистическую совокупность на 2 равных по численности части. В итоге у одной половины значение больше медианы, а у другой - меньше медианы.
Если X задан дискретно, то для определения медианы все значения нумеруются от 0 до N в порядке возрастания, тогда медиана при четном числе N будет лежать посередине между X c номерами 0,5N и (0,5N+1), а при нечетном числе N будет соответствовать значению X с номером 0,5(N+1).
Если X задан в виде равных интервалов, то сначала определяется медианный интервал (интервал, в котором заканчивается одна половина частот f и начинается другая половина), в котором находят условное значение медианы по формуле:
где Ме - медиана;
ХНМе - нижняя граница медианного интервала;
hМе - размах медианного интервала (разность между его верхней и нижней границей);
fМе - частота медианного интервала;
fМе-1 - сумма частот интервалов, предшествующих медианному.
Вариация - это различие значений величин X у отдельных единиц статистической совокупности. Для изучения силы вариации рассчитывают следующие показатели вариации: размах вариации, среднее линейное отклонение, линейный коэффициент вариации, дисперсия, среднее квадратическое отклонение, квадратический коэффициент вариации.
Линейный коэффициент вариации - это отношение среднего линейного отклонение к средней арифметической:
С помощью линейного коэффициента вариации можно сравнивать вариацию разных совокупностей, потому что в отличие от среднего линейного отклонения его значение не зависит от единиц измерения X.
Дисперсия - это средний квадрат отклонений значений X от среднего арифметического значения. Дисперсию можно рассчитывать по формуле средней арифметической простой - получим дисперсию простую:
Если исходные данные X сгруппированы (имеются частоты f), то расчет дисперсии выполняется по формуле средней арифметической взвешенной - получим дисперсию взвешенную:
Если значения X - это доли совокупности, то для расчета дисперсии используют частную формулу дисперсии доли:
.
Выше уже было рассказано о формуле средней квадратической, которая применяется для оценки вариации путем расчета среднего квадратического отклонения, обозначаемое малой греческой буквой сигма:
Еще проще можно найти среднее квадратическое отклонение, если предварительно рассчитана дисперсия, как корень квадратный из нее:
Квадратический коэффициент вариации - это самый популярный относительный показатель вариации:
Задача 1.1
По статистическим данным необходимо определить среднее значение, моду, медиану, дисперсию, среднеквадратическое отклонение, коэффициент вариации. Каждое значение было увеличено на номер классного журнала (4). Дисперсия до одного знака после запятой; среднеквадратическое - до двух; коэффициент вариации - до одного в процентах.
Дано (х): |
7; |
9; |
6; |
8; |
11; |
7; |
12; |
7; |
14; |
Определим среднее значение:
б
Моду: - наиболее часто встречающееся значение ряда.
Медиана. Для ее расчета расположим ряд в порядке возрастания:
6, |
7, |
7, |
7, |
8, |
9, |
11, |
12, |
14. |
Количество элементов 9, нечетное количество, медианой будет являться число 8, так как оно занимает центральное положение среди совокупности упорядоченных по возрастанию чисел.
Вычислим дисперсию:
= 6,7
Вычислим среднеквадратическое отклонение:
И коэффициент вариации составит:
Задача 1.2
По данным статистики в отчетном периоде по сравнению с базисным доход от реализации продукции предприятия увеличился на 25%, стоимость основных фондов увеличилась на 14%. Определить изменение фондоотдачи.
Фондоотдача - это финансовый коэффициент, характеризующий эффективность использования основных средств организации. Фондоотдача показывает, сколько выручки приходится на единицу стоимости основных средств.
Фондоотдача вычисляется по формуле:
,
соответственно изменение фондоотдачи:
= 9,65%
Таким образом, фондоотдача увеличилась на 9,65%
Задача 1.3
Объем оборота (У) и число работников (m) приведены в таблице 1. Необходимо определить среднее значение, моду и медиану.
Таблица 1.1 - Исходные данные
У |
80-100 |
100-120 |
120-140 |
140-160 |
160-180 |
180-200 |
|
m |
6 |
17 |
25 |
28 |
14 |
10 |
Определим среднее значение моду и медиану. Промежуточные вычисления приведены в таблице1.2
Таблица 1.2 - промежуточные вычисления.
У |
80-100 |
100-120 |
120-140 |
140-160 |
160-180 |
180-200 |
|
m |
6 |
17 |
25 |
28 |
14 |
10 |
|
У? |
90 |
110 |
130 |
150 |
170 |
190 |
|
m*У? |
540 |
1870 |
3250 |
4200 |
2380 |
1900 |
|
У?/2 |
45 |
55 |
65 |
75 |
85 |
95 |
|
Накопл. частота |
6 |
23 |
48 |
76 |
90 |
100 |
Общее число работников составляет человек
Среднее значение x?=
Далее определим моду и медиану, для этого необходимо определить медианный интервал. Медианным интервалом будет являться интервал 140-160, так как накопленная частота на этом промежутке превысит значение . (76>50). Вычислим моду:
б
Вычислим медиану:
б
Задача 1.4
По данным таблицы требуется определить среднюю внутригрупповую, межгрупповую и общую дисперсии, а также коэффициент детерминации. В таблице: Х-объем оборота предприятий, млн. руб., mг - число государственных предприятий; mч - частных; mо - общее число (таблица 1.3). Каждое значение Хi было увеличено на номер классного журнала (4).
Таблица 1.3 - Исходные данные по объему оборота предприятий
Хi |
mгi |
mчi |
moi |
|
5,0-5,2 |
_ |
3 |
3 |
|
5,2-5,4 |
_ |
4 |
4 |
|
5,4-5,6 |
_ |
17 |
17 |
|
5,6-5,8 |
11 |
15 |
26 |
|
5,8-6,0 |
13 |
6 |
19 |
|
6,0-6,2 |
18 |
5 |
23 |
|
6,2-6,4 |
6 |
_ |
6 |
|
6,4-6,6 |
2 |
_ |
2 |
|
50 |
50 |
100 |
Для удобства расчета составим таблицу 1.4, в которой будут отражены промежуточные вычисления для нахождению общей дисперсии.
Таблица 1.4 - Расчет общей дисперсии
Число предприятий |
Расчет дисперсии |
|||||||
Хi (млн. руб) |
mгi |
mчi |
moi |
Хср.i |
Хср.i*moi |
(Хср.i-X?o)^2 |
(Хср.i-X?o)І*moi |
|
5,0-5,2 |
_ |
3 |
3 |
5,1 |
15,3 |
0,509796 |
1,529388 |
|
5,2-5,4 |
_ |
4 |
4 |
5,3 |
21,2 |
0,264196 |
1,056784 |
|
5,4-5,6 |
_ |
17 |
17 |
5,5 |
93,5 |
0,098596 |
1,676132 |
|
5,6-5,8 |
11 |
15 |
26 |
5,7 |
148,2 |
0,012996 |
0,337896 |
|
5,8-6,0 |
13 |
6 |
19 |
5,9 |
112,1 |
0,007396 |
0,140524 |
|
6,0-6,2 |
18 |
5 |
23 |
6,1 |
140,3 |
0,081796 |
1,881308 |
|
6,2-6,4 |
6 |
_ |
6 |
6,3 |
37,8 |
0,236196 |
1,417176 |
|
6,4-6,6 |
2 |
_ |
2 |
6,5 |
13 |
0,470596 |
0,941192 |
|
У |
50 |
50 |
100 |
581,4 |
8,9804 |
Общее среднее:
млн. руб.
Общая дисперсия:
у2о= млн.руб. =89804 руб.
Далее рассчитаем дисперсию по группам: для государственных и частных предприятий.
Таблица 1.5 - расчет дисперсии (гос. предприятия)
Хi (млн. руб) |
mгi |
Хср.i |
Хср.i*mгi |
(Хср.i-X?г)І |
(Хср.i-X?г)І*mгi |
|
5,6-5,8 |
11 |
5,7 |
62,7 |
0,09 |
0,99 |
|
5,8-6,0 |
13 |
5,9 |
76,7 |
0,01 |
0,13 |
|
6,0-6,2 |
18 |
6,1 |
109,8 |
0,01 |
0,18 |
|
6,2-6,4 |
6 |
6,3 |
37,8 |
0,09 |
0,54 |
|
6,4-6,6 |
2 |
6,5 |
13 |
0,25 |
0,5 |
|
У |
50 |
300 |
2,34 |
Среднее значение: млн. руб.
Дисперсия: у2г= млн.руб. = 46800 руб.
Таблица 1.6 - расчет дисперсии (частные предприятия)
Хi (млн. руб) |
Mчi |
Хср.i |
Хср.i*mчi |
(Хср.i-X?ч)І |
(Хср.i-X?ч)І*mчi |
|
5,0-5,2 |
3 |
5,1 |
15,3 |
0,278784 |
0,836352 |
|
5,2-5,4 |
4 |
5,3 |
21,2 |
0,107584 |
0,430336 |
|
5,4-5,6 |
17 |
5,5 |
93,5 |
0,016384 |
0,278528 |
|
5,6-5,8 |
15 |
5,7 |
85,5 |
0,005184 |
0,07776 |
|
5,8-6,0 |
6 |
5,9 |
35,4 |
0,073984 |
0,443904 |
|
6,0-6,2 |
5 |
6,1 |
30,5 |
0,222784 |
1,11392 |
|
У |
50 |
281,4 |
3,1808 |
Среднее значение : млн. руб.
Дисперсия: у2ч= млн.руб. (63616 руб.)
Средняя внутригрупповая дисперсия:
у?в=
Общая дисперсия равна сумме межгрупповой и среднегрупповой дисперсий, следовательно межгрупповая дисперсия будет равна:
уІмг= уІо - у?в= 89804 - 55208 = 34596 руб.
Вычислим коэффициент детерминации:
Таким образом, 38,52% различий в объеме товарооборота предприятий обусловлены формой собственности, а 61,48% - влиянием других факторов.
Задача 1.5
Необходимо определить среднюю внутригрупповую, межгрупповую и общую дисперсии совокупности, состоящей из трех групп (таблица 3).
Таблица 1.6 - Исходные данные 1 - группа
Хi |
1 |
2 |
8 |
|
mi |
30 |
15 |
5 |
|
Хi |
1 |
6 |
||
mi |
10 |
15 |
||
Хi |
3 |
8 |
||
mi |
20 |
5 |
Для удобства расчета общей дисперсии составим таблицу 1.7, в которой будут представлены вычисления.
Таблица 1.7 - вычисление общей дисперсии.
Xi |
Mi |
Расчет дисперсии |
||||||
1 |
2 |
3 |
moi |
Х*moi |
(Х-Х?o)І |
(Х-Х?o)І*moi |
||
1 |
30 |
10 |
40 |
40 |
4 |
160 |
||
2 |
15 |
15 |
30 |
1 |
15 |
|||
3 |
20 |
20 |
60 |
0 |
0 |
|||
6 |
15 |
15 |
90 |
9 |
135 |
|||
8 |
5 |
5 |
10 |
80 |
25 |
250 |
||
Сумма |
100 |
300 |
560 |
Среднее общее значение : х?о=
Общая дисперсия:
Далее определим дисперсию для каждой группы в отдельности :
Таблица 1.8 - вычисление дисперсии для 1 группы.
Xi |
m1i |
X*m1i |
(Х-Х?1)І |
(Х-Х?1)І*m1i |
|
1 |
30 |
30 |
1 |
30 |
|
2 |
15 |
30 |
0 |
0 |
|
8 |
5 |
40 |
36 |
180 |
Среднее значение : X?1=
Дисперсия: уІ1=
Таблица 1.9 - вычисление дисперсии для 2 группы.
Xi |
m2i |
X*m2i |
(Х-Х?2)І |
(Х-Х?2)І*m2i |
|
1 |
10 |
10 |
9 |
90 |
|
6 |
15 |
90 |
4 |
60 |
Среднее значение : X?2=
Дисперсия: уІ2=
Таблица 1.10 - вычисление дисперсии для 3 группы.
Xi |
m3i |
X*m3i |
(Х-Х?3)І |
(Х-Х?3)І*m3i |
|
3 |
20 |
60 |
1 |
20 |
|
8 |
5 |
40 |
16 |
80 |
Среднее значение : X?3=
Дисперсия: уІ3=
Вычислим среднюю внутригрупповую дисперсию: у?Ів=
И межгрупповую: уІмг=уІо-у?Ів= 5,6 - 4,73 = 0,87
Корреляционный анализ
Корреляционный анализ занимается степенью связи между двумя случайными величинами Х и Y.
Корреляционный анализ экспериментальных данных для двух случайных величин заключает в себе следующие основные приемы:
1. Вычисление выборочных коэффициентов корреляции.
2.Составление корреляционной таблицы.
3. Проверка статистической гипотезы значимости связи.
Корреляционная зависимость между случайными величинами Х и Y называется линейной корреляцией, если обе функции регрессии f(x) и ц(x) являются линейными. В этом случае обе линии регрессии являются прямыми; они называется прямыми регрессии.
Для достаточно полного описания особенностей корреляционной зависимости между величинами недостаточно определить форму этой зависимости и в случае линейной зависимости оценить ее силу по величине коэффициента регрессии. Например, ясно, что корреляционная зависимость возраста Y учеников средней школы от года Х их обучения в школе является, как правило, более тесной, чем аналогичная зависимость возраста студентов высшего учебного заведения от года обучения, поскольку среди студентов одного и того же года обучения в вузе обычно наблюдается больший разброс в возраcте, чем у школьников одного и того же класса.
Для оценки тесноты линейных корреляционных зависимостей между величинами Х и Y по результатам выборочных наблюдений вводится понятие выборочного коэффициента линейной корреляции, определяемого формулой:
где уX и уY выборочные средние квадратические отклонения величин Х и Y, которые вычисляются по формулам:
Следует отметить, что основной смысл выборочного коэффициента линейной корреляции rB состоит в том, что он представляет собой эмпирическую (т.е. найденную по результатам наблюдений над величинами Х и Y) оценку соответствующего генерального коэффициента линейной корреляции r: r=rB (9)
Принимая во внимание формулы:
видим, что выборочное уравнение линейной регрессии Y на Х имеет вид:
где . То же можно сказать о выборочном уравнений линейной регрессии Х на Y:
Основные свойства выборочного коэффициента линейной корреляции:
1. Коэффициент корреляции двух величин, не связанных линейной корреляционной зависимостью, равен нулю.
2. Коэффициент корреляции двух величин, связанных линейной корреляционной зависимостью, равен 1 в случае возрастающей зависимости и -1 в случае убывающей зависимости.
3. Абсолютная величина коэффициента корреляции двух величин, связанных линейной корреляционной зависимостью, удовлетворяет неравенству 0<|r|<1. При этом коэффициент корреляции положителен, если корреляционная зависимость возрастающая, и отрицателен, если корреляционная зависимость убывающая.
4. Чем ближе |r| к 1, тем теснее прямолинейная корреляция между величинами Y, X. По своему характеру корреляционная связь может быть прямой и обратной, а по силе - сильной, средней, слабой. Кроме того, связь может отсутствовать или быть полной.
Сила и характер связи между параметрами
Сила связи |
Характер связи |
||
Прямая (+) |
Обратная (-) |
||
Полная |
1 |
-1 |
|
Сильная |
От 0,7 до 1 |
От -0,7 до -1 |
|
Средняя |
От 0,3 до 0,7 |
От -0,3 до -0,7 |
|
Слабая |
От 0,3 до 0 |
От -0,3 до 0 |
|
Связь отсутсвует |
0 |
0 |
Задача 2.1
Определить коэффициент корреляции между У и Х.
Х: 3,5; 4,6; 5,8; 4,2; 5,2;
УХ:28,35; 43,24; 65,54; 28,98; 50,44.
Оценить значимость коэффициента корреляции при уровне 0,05. Расчеты и ответы до двух знаков. Вначале определить У, а затем У и Х увеличить на свой номер классного журнала. Результаты:
1) коэффициент корреляции;
2) расчетное и табличное значения критерия Стьюдента и вывод.
Решение:
Определим У, увеличим Х и У на номер журнала.
Таблица 2.1 - результаты вычислений.
У |
12,1 |
13,4 |
15,3 |
10,9 |
13,7 |
|
Х |
7,5 |
8,6 |
9,8 |
8,2 |
9,2 |
|
ХУ |
90,75 |
115,24 |
149,94 |
89,38 |
126,04 |
|
(Хi-Х?)І |
1,3456 |
0,0036 |
1,2996 |
0,2116 |
0,2916 |
|
(Уi-У?)І |
0,9604 |
0,1024 |
4,9284 |
4,7524 |
0,3844 |
Вычислим средние значения:
- для Х : X?=
- для У: У?=
- для ХУ:
Определим дисперсии.
уІХ =
уІУ=
Вычислим коэффициент корреляции:
rxy =
Определим расчетное значение критерия Стьюдента. Для его вычисления необходим показатель степени свободы. В данной задаче: f= 5-2 =3.
Расчетное значение критерия Стьюдента:
б
Табличное значение критерия Стьюдента:
Таким образом, табличное значение критерия Стьюдента больше расчетного значения критерия Стьюдента, значит нулевая гипотеза подтверждается, а следовательно коэффициент корреляции не значим.
Задача 2.2
Определить коэффициент корреляции между количеством деталей (у) и стоимостью их изготовления (х). Оценить его значимость.
Исходные данные:
х 18 22 13 20 15 14
у 17 20 11 18 14 10
Это нулевой вариант. Каждое значение х и у было увеличено на свой номер классного журнала (4).
Аналогично предыдущему заданию, рассчитаем коэффициент корреляции и расчетное значение критерия Стьюдента, а так же его значимость. Результаты промежуточных вычислений приведены в таблице 4.2
Таблица 2.2 - результаты промежуточных вычислений.
Сумма |
||||||||
Х |
22 |
26 |
17 |
24 |
19 |
18 |
126 |
|
У |
21 |
24 |
15 |
22 |
18 |
14 |
114 |
|
ХУ |
462 |
624 |
255 |
528 |
342 |
252 |
2463 |
|
(Хi-Х?)І |
1 |
25 |
16 |
9 |
4 |
9 |
64 |
|
(Уi-У?)І |
4 |
25 |
16 |
9 |
1 |
25 |
80 |
Вычислим средние значения:
для Х : X?=
для У: У?=
для ХУ:
Определим дисперсии.
уІХ =
уІУ=
Коэффициент корреляции:
rxy =
Определим расчетное значение критерия Стьюдента. В данной задаче значение степени свободы: f= 6-2 =4.
Расчетное значение критерия Стьюдента:
б
Табличное значение критерия Стьюдента: :
Таким образом, табличное значение критерия Стьюдента меньше расчетного значения критерия Стьюдента, значит нулевая гипотеза отвергается, а следовательно коэффициент корреляции значим
Задача 2.3
В результате тестирования 7 студентов они получили баллы по теории вероятностей и статистики по сто балльной системе:
Теория вероятностей: 65 90 42 47 84 58 50
Статистика: 51 85 36 63 72 80 40.
Определить коэффициент ранговой корреляции Спирмена и его значимость. Это нулевой вариант. Каждое значение (балл) увеличить на свой номер классного журнала. Расчеты и результат до двух знаков.
Результаты:
1.Коэффициент ранговой корреляции.
2.Расчетное и табличное значения критерия Стьюдента при уровне значимости равным 0,05 и выводы.
Решение:
Для вычисления рангового коэффициента корреляции Спирмена ранжируем полученные студентами баллы по двум предметам. Затем определим квадрат разницы рангов по двум дисциплинам для каждого студента. Все эти вычисления представлены в таблице 4.3 (все значения баллов были увеличены на номер классного журнала - 4).
Таблица 2.3 - Расчет коэффициента ранговой корреляции Спирмена.
№ студента |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
|
Теория вероятностей |
69 |
94 |
46 |
51 |
88 |
62 |
54 |
|
Статистика |
55 |
89 |
40 |
67 |
76 |
84 |
44 |
|
Ранг (Rтв) |
5 |
7 |
1 |
2 |
6 |
4 |
3 |
|
Ранг (Rст) |
3 |
7 |
1 |
4 |
5 |
6 |
2 |
|
dІ |
4 |
0 |
0 |
4 |
1 |
4 |
1 |
Значение степени свободы составляет f = 7 - 2 =5
Количество ранжируемых элементов: n = 7
Коэффициент корреляции Спирмена:
Таким образом, коэффициент корреляции Спирмена выявил прямую тесную зависимость. Определим его значимость. Для этого необходимо табличное значение критерия значимости Спирмена со степенью значимости б=0,05, оно равно . Таким образом, расчетное значение критерия корреляции Спирмена меньше критического значения критерия. Значит нулевая гипотеза подтверждается, а значит коэффициент корреляции не значим.
Далее рассчитаем значение коэффициента Стьюдента. Для его расчета необходимы дополнительные расчеты, представленные в таблице 2.4
Таблица 2.4 - Расчет коэффициента корреляции Стьюдента.
№ студента |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Сумма |
|
Теория вероятностей (x) |
69 |
94 |
46 |
51 |
88 |
62 |
54 |
464 |
|
Статистика (y) |
55 |
89 |
40 |
67 |
76 |
84 |
44 |
455 |
|
хi-x? |
2,71 |
27,71 |
-20,29 |
-15,29 |
21,71 |
-4,29 |
-12,29 |
||
yi-y? |
-10,00 |
24,00 |
-25,00 |
2,00 |
11,00 |
19,00 |
-21,00 |
||
(хi-x?)(yi-y?) |
-27,14 |
665,14 |
507,14 |
-30,571 |
238,86 |
-81,43 |
258 |
1530 |
|
(хi-x?)І |
7,36735 |
768,082 |
411,51 |
233,653 |
471,51 |
18,3673 |
150,939 |
2061,43 |
|
(yi-y?)І |
100 |
576 |
625 |
4 |
121 |
361 |
441 |
2228 |
Среднее значение баллов по теории вероятности: х? =
Определим корреляционный момент:
Кху =
Вычислим дисперсии:
уІх =
уІy =
Коэффициент корреляции:
б
Определим расчетное значение критерия Стьюдента: , соответственно табличное значение критерия
Расчетное значение критерия Стьюдента меньше табличного, поэтому нулевая гипотеза подтверждается, следовательно, коэффициент корреляции не значим.
3. Регрессионный анализ
Регрессионный анализ - метод моделированияизмеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной.
Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей.
Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.
Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи.
Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.
Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.
Математические модели строятся и используются для трех обобщенных целей:
* для объяснения;
* для предсказания;
* для управления.
Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.
Постановка задачи регрессионного анализа формулируется следующим образом.
Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.
Допущения:
- количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;
- обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;
- матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.
Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин «регрессия» (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода.
Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:
- предварительная обработка данных;
- выбор вида уравнений регрессии;
- вычисление коэффициентов уравнения регрессии;
- проверка адекватности построенной функции результатам наблюдений.
Задача 3.1
Построить нелинейную обратную модель связи себестоимости единицы продукции (y) со стоимостью основных фондов (х). Определить характеристики модели. Каждое значение (y) увеличить на свой номер классного журнала (4).
Исходные данные(с учетом увеличения на номер варианта):
y: 25; 20; 19;18;17; 16,5; 15; 15,5; 14; 12
х: 1; 2; 3; 4; 5; 6; 7; 8; 9; 10
Характеристики модели:
1) модель (коэффициенты до 4-х знаков);
2) индекс детерминации (до 2-х знаков);
3) стандартную ошибку (до 4-х знаков);
4) расчетное значения критерия Фишера (до 2-х знаков) и вывод о значимости модели;
5) вывод о значимости коэффициентов модели;
6) доверительные интервалы коэффициентов модели (до 4-х знаков)
Все исходные и промежуточные расчеты представлены в таблице 3.1
Таблица 3.1
1/x |
y |
1/x2 |
y2 |
y/x |
y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
|y - yx|:y |
|
0.2 |
25 |
0.04 |
625 |
5 |
25 |
24.166 |
60.84 |
0.696 |
0.0334 |
|
0.1667 |
20 |
0.02778 |
400 |
3.3333 |
20 |
21.374 |
7.84 |
1.889 |
0.0687 |
|
0.1429 |
19 |
0.02041 |
361 |
2.7143 |
19 |
19.38 |
3.24 |
0.145 |
0.02 |
|
0.125 |
18 |
0.01563 |
324 |
2.25 |
18 |
17.885 |
0.64 |
0.0133 |
0.0064 |
|
0.1111 |
17 |
0.01235 |
289 |
1.8889 |
17 |
16.722 |
0.04 |
0.0775 |
0.0164 |
|
0.1 |
16.5 |
0.01 |
272.25 |
1.65 |
16.5 |
15.791 |
0.49 |
0.503 |
0.043 |
|
0.09091 |
15 |
0.00826 |
225 |
1.3636 |
15 |
15.03 |
4.84 |
0.000886 |
0.00198 |
|
0.08333 |
15.5 |
0.00694 |
240.25 |
1.2917 |
15.5 |
14.395 |
2.89 |
1.22 |
0.0713 |
|
0.07692 |
14 |
0.00592 |
196 |
1.0769 |
14 |
13.858 |
10.24 |
0.02 |
0.0101 |
|
0.07143 |
12 |
0.0051 |
144 |
0.8571 |
12 |
13.398 |
27.04 |
1.955 |
0.117 |
|
1.1682 |
172 |
0.1524 |
3076.5 |
21.4259 |
172 |
172 |
118.1 |
6.519 |
0.388 |
Для наших данных система уравнений имеет вид
б
a=
1,168
20,0896 - 0,1364224b+0,152b=21,426
0,01558b=1,3364
b = 85,751
a = 7,184
Уравнение регрессии будет иметь следующий вид:
y = 7,184+85,751 / x
Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно: медиана вариация дисперсия корреляционный
Ошибка аппроксимации.
В среднем, расчетные значения отклоняются от фактических на 3.88%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Индекс детерминации.
т.е. в 94.48% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 5.52% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Оценка параметров уравнения регрессии.
S2 = 0.815 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса зависимой переменной вокруг линии регрессии).
S = 0.9 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
F-статистика. Критерий Фишера.
или по формуле:
где
Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Задача 3.2
Построить полулогарифмическую модель вида: y=a0+a1lnx по данным:
у 10; 13,4; 15,4; 16,5; 18,6; 19,1
х 1; 2; 3; 4; 5; 6.
Определить характеристики модели.
Каждое значение (у) увеличить на свой номер классного журнала.
Характеристики модели: 1) модель (коэффициенты до 2-х знаков);
2) индекс детерминации (до 2-х знаков);
3) стандартную ошибку (до 4-х знаков);
4) расчетное и табличное значения критерия Фишера (до 2-х знаков) и вывод о значимости модели.
Промежуточные расчеты представлены в таблице 3.2
Таблица 3.2
y |
x |
ln x |
(ln x)2 |
yln x |
(2 |
(y - 2 |
||
14 17.4 19,4 20,5 22,6 23,1 |
1 2 3 4 5 6 |
0 0,69 1,10 1,39 1,61 1,79 |
0 0,48 1,21 1,93 2,59 3,2 |
0 12,01 21,34 28,49 36,39 41,35 |
13,85 17,404 19,516 21,009 22,14 23,0698 |
30,25 4,41 0,01 1 9,61 12,96 |
0,0225 0,000016 0,01346 0,259 0,2116 0,0009 |
|
117 |
21 |
6,58 |
9,41 |
139,58 |
58,24 |
0,5075 |
||
Ср.знач.19,5 |
3,5 |
1)Составим систему уравнений:
б
Решим систему уравнений:
a0 =;
6,58(19,5 - 1,097a1)+9,41a1 = 139,58
128,31 - 7,218a1+9,41а1 = 139,58
2,19 a1 = 11,28
a1 = 5,1507
а0=
а0= 13,85
Уравнение имеет вид
y=13,85 +5,1507 lnx
2) Найдем индекс детерминации:
R2=
xy =
Следовательно, R2=0,99
3) Рассчитаем стандартную ошибку:
б
4) Найдем расчетное значение Фишера:
б
Fтабл= 7,71
Уравнение регрессии с вероятностью 0,95 статистически значимое, так как F > Fтабл.
Задача 3.3
Реальные статистические данные о рождаемости в Пензенской области приведены в таблице 3.3.
Таблица 3.3 - Динамика коэффициента рождаемости в Пензенской области
Год |
2000 |
2001 |
2002 |
2003 |
2004 |
2005 |
|
Коэффициент рождаемости |
7,5 |
7,5 |
8,0 |
8,4 |
8,6 |
8,4 |
|
Год |
2006 |
2007 |
2008 |
2009 |
2010 |
2011 |
|
Коэффициент рождаемости |
8,6 |
9,7 |
10,2 |
10,3 |
10,2 |
10,1 |
|
Год |
2012 |
2013 |
2014 |
2015 |
2016 |
||
Коэффициент рождаемости |
10,8 |
10,6 |
10,8 |
10,7 |
10,2 |
Построить трендовую линейную регрессионную модель. Определить коэффициент детерминации, стандартную ошибку, значимость модели и ошибку аппроксимации. Спрогнозировать коэффициент рождаемости в 2017г. В электронную таблицу вместо года ставить 1,2,…
Решение:
1) Построить линейную модель y=a0 - ait
a0 = y - a1 *
Промежеточные расчеты представлены в таблице 3.4
Таблица 3.4
Год |
t |
y |
t-tср |
(t-tср)2 |
y-yср |
(t-tср)(y-yср) |
yp |
et |
*100 |
|||
2000 |
1 |
7,5 |
- 8 |
64 |
- 1,95 |
15,5768 |
7,695 |
-0,195 |
0,03806 |
2,60 |
3,7912 |
|
2001 |
2 |
7,5 |
-7 |
49 |
-1,95 |
13,6297 |
7,914 |
- 0,414 |
0,17148 |
5,52 |
3,7912 |
|
2002 |
3 |
8 |
- 6 |
36 |
-1,45 |
8,6826 |
8,133 |
- 0,133 |
0,01772 |
1,66 |
2,0941 |
|
2003 |
4 |
8,4 |
- 5 |
25 |
-1,05 |
5,2355 |
8,352 |
0,048 |
0,00229 |
0,57 |
1,0964 |
|
2004 |
5 |
8,6 |
- 4 |
16 |
- 0,85 |
3,3884 |
8,571 |
0,029 |
0,00084 |
0,34 |
0,7176 |
|
2005 |
6 |
8,4 |
- 3 |
9 |
- 1,05 |
3,1413 |
8,790 |
-0,390 |
0,15218 |
4,64 |
1,0964 |
|
2006 |
7 |
8,6 |
- 2 |
4 |
- 0,85 |
1,6942 |
9,009 |
- 0,409 |
0,16736 |
4,76 |
0,7176 |
|
2007 |
8 |
9,7 |
- 1 |
1 |
0,253 |
-0,2529 |
9,228 |
0,472 |
0,22269 |
4,86 |
0,064 |
|
2008 |
9 |
10,2 |
0 |
0 |
0,753 |
0 |
9,447 |
0,753 |
0,56686 |
7,38 |
0,5669 |
|
2009 |
10 |
10,3 |
1 |
1 |
0,853 |
0,8529 |
9,666 |
0,634 |
0,40183 |
6,15 |
0,7274 |
|
2010 |
11 |
10,2 |
2 |
4 |
0,753 |
1,5058 |
9,885 |
0,315 |
0,09916 |
3,09 |
0,5669 |
|
2011 |
12 |
10,1 |
3 |
9 |
0,653 |
1,9587 |
10,104 |
- 0,004 |
0,00002 |
0,04 |
0,4263 |
|
2012 |
13 |
10,8 |
4 |
16 |
1,353 |
5,4116 |
10,323 |
0,477 |
0,22743 |
4,42 |
1,8303 |
|
2013 |
14 |
10,6 |
5 |
25 |
1,153 |
5,7645 |
10,542 |
0, 058 |
0,00335 |
0,55 |
1,3292 |
|
2014 |
15 |
10,8 |
6 |
36 |
1,353 |
8,1174 |
10,761 |
0,039 |
0,00151 |
0,36 |
1,8303 |
|
2015 |
16 |
10,7 |
7 |
49 |
1,253 |
8,7703 |
10,980 |
- 0,280 |
0,07846 |
2,62 |
1,5698 |
|
2016 |
17 |
10,2 |
8 |
64 |
0,753 |
6,0232 |
11,199 |
-0,999 |
0,99820 |
9,80 |
0,5669 |
|
Итого |
153 |
160,6 |
0 |
408 |
0 |
89,5 |
160,6007 |
-0,0007 |
3,1494409 |
59,35727 |
22,82 |
|
Ср.знач. |
9 |
9,447 |
1) а1=
а0= 9,447 - 0,219*9=7,476
Уравнение выглядит следующим образом:
у = 7,476 +0,219t
2) Спрогнозируем коэффициент рождаемости на 2017 год:
y = 7,476 +0,219*18=11,418
3) Найдем стандартную ошибку:
б
4) Найдем ошибку апроксимации:
б
5) Рассчитаем коэффициент детерминации:
R2=
6) Определим F-критерий Фишера:
Рассчетное значение:
б
Уравнение регрессии с вероятностью 0,95 статистически значимое, так как F >Fтабл. Задача 3.4
Реальные статистические данные о курсе валют приведены в таблице 3.5. Построить линейную и нелинейные регрессионные модели вида: у = ао + а1t; lnу = ао + а1t; у = 1/(ао + а1t). Определить коэффициент детерминации, стандартную ошибку, значимость модели и ошибку аппроксимации. В электронную таблицу вместо года записывать 1,2,… По стандартной ошибке выбрать лучшую модель и спрогнозировать цену одного доллара в декабре 2017 года.
Таблица 3.5 - Курс рубля к доллару
Месяц и год |
Январь 2017 |
Февраль 2017 |
Март 2017 |
Апрель 2017 |
Май 2017 |
Июнь 2017 |
Июль 2017 |
Август 2017 |
|
Цена одного доллара |
59,6 |
58,5 |
58,0 |
56,4 |
57,0 |
57,9 |
59,7 |
59,6 |
Решение:
1)Построим линейную модель
Для наших данных система уравнений имеет ви
б
a=
36
2100,15 - 162b+204b=2103,3
42b=3,15
b=0,075
a=58
Уравнение регрессии будет иметь вид:
y = 58+0,075 x
Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 0.075 x + 58
Ошибка аппроксимации.
В среднем, расчетные значения отклоняются от фактических на 1.74%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Построим модель вида lnу = ао + а1t
Для этого значения у заменим значениями lny
Для расчета параметров регрессии построим расчетную таблицу (табл. 3.6)
Таблица 3.6
x |
Y |
x2 |
y2 |
x * y |
|
1 |
4.09 |
1 |
16.7281 |
4.09 |
|
2 |
4.07 |
4 |
16.5649 |
8.14 |
|
3 |
4.06 |
9 |
16.4836 |
12.18 |
|
4 |
4.03 |
16 |
16.2409 |
16.12 |
|
5 |
4.04 |
25 |
16.3216 |
20.2 |
|
6 |
4.06 |
36 |
16.4836 |
24.36 |
|
7 |
4.09 |
49 |
16.7281 |
28.63 |
|
8 |
4.09 |
64 |
16.7281 |
32.72 |
|
36 |
32.53 |
204 |
132.2789 |
146.44 |
Для наших данных система уравнений имеет вид:
б
a=
36
146,385-162b+204b=146,44
b= 0,00131
a=4,0604
Уравнение будет выглядеть следующим образом:
y =4,0604+ 0,00131 x
Ошибка аппроксимации.
В среднем, расчетные значения отклоняются от фактических на 0.46%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
R2= 0.1382 = 0.01902
т.е. в 1.9% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - низкая. Остальные 98.1% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
F-статистика. Критерий Фишера.
или по формуле:
где
Табличное значение критерия со степенями свободы k1=1 и k2=6, Fтабл = 5.99
Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).
Построим модель вида у = 1/(ао + а1t)
Для расчета параметров регрессии построим расчетную таблицу (табл. 3.7)
Таблица 3.7
1/x |
Y |
1/x2 |
y2 |
y/x |
|
1 |
59.6 |
1 |
3552.16 |
59.6 |
|
0.5 |
58.5 |
0.25 |
3422.25 |
29.25 |
|
0.3333 |
58 |
0.1111 |
3364 |
19.3333 |
|
0.25 |
56.4 |
0.0625 |
3180.96 |
14.1 |
|
0.2 |
57 |
0.04 |
3249 |
11.4 |
|
0.1667 |
57.9 |
0.02778 |
3352.41 |
9.65 |
|
0.1429 |
59.7 |
0.02041 |
3564.09 |
8.5286 |
|
0.125 |
59.6 |
0.01563 |
3552.16 |
7.45 |
|
2.7179 |
466.7 |
1.5274 |
27237.03 |
159.3119 |
Для наших данных система уравнений имеет вид
б
Получаем эмпирические коэффициенты регрессии: b = 1,2563, a = 57,9107
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 1,2563 / x + 57,9107
Ошибка аппроксимации.
В среднем, расчетные значения отклоняются от фактических на 1.54%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии. Индекс детерминации.
т.е. в 8.73% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - низкая. Остальные 91.27% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
F-статистика. Критерий Фишера.
или по формуле:
где
Табличное значение критерия со степенями свободы k1=1 и k2=6, Fтабл =5.99
Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).
Сведем в таблицу полученные результаты в таблицу
Таблица 3.8
Модель |
Стандартная ошибка |
|
y = 0.075 x + 58 |
1,46 |
|
y = 0.00131 x + 46.06 |
0,46 |
|
y = |
1,54 |
По стандартной ошибке выбираем модель y = 0.00131 x + 4.06, сделаем прогноз на 5 месяцев вперед
y = 0.00131 5 + 4.06=46,06
Задача 3.5.
По статистическим данным таблицы 3.9 определить средние величины, структурные средние и показатели вариации. Построить линейную модель связи показателя со временем и оценить ее качество.
Таблица 3.9
Страна |
Наименование валюты |
2010 |
2011 |
2012 |
2013 |
2014 |
2015 |
|
4.Армения |
армянский драм |
84,132) |
83,742) |
75,372) |
80,712) |
12,103) |
15,053) |
1) По данным Банка России.
2) За 1000 единиц национальной валюты.
3) За 100 единиц национальной валюты.
4) За 10 000 единиц национальной валюты.
5) За 10 единиц национальной валюты.
Решение:
Запишем исходные данные
X |
y |
|
1 |
84130 |
|
2 |
83740 |
|
3 |
75370 |
|
4 |
80710 |
|
5 |
1210 |
|
6 |
150500 |
Система нормальных уравнений.
a*n + b*?x = ?y
a*?x + b*?x2 = ?y*x
Для расчета параметров регрессии построим расчетную таблицу
Таблица 3.10
x |
y |
x2 |
y2 |
x * y |
|
1 |
84130 |
1 |
7077856900 |
84130 |
|
2 |
83740 |
4 |
7012387600 |
167480 |
|
3 |
75370 |
9 |
5680636900 |
226110 |
|
4 |
80710 |
16 |
6514104100 |
322840 |
|
5 |
1210 |
25 |
1464100 |
6050 |
|
6 |
150500 |
36 |
22650250000 |
903000 |
|
21 |
475660 |
91 |
48936699600 |
1709610 |
Для наших данных система уравнений имеет вид
б
a=
21
1664810 - 73,5b+91b=1709610
17,5b=44800
b = 2560
a = 70316,6667
Уравнение имеет следующий вид:
y = 2560 x + 70316.6667
Коэффициент корреляции.
Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 2560 x + 70316.667
Ошибка аппроксимации.
В среднем, расчетные значения отклоняются от фактических на 1139.86%. Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.
Коэффициент детерминации.
R2= 0.1012 = 0.01021
т.е. в 1.02% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - низкая. Остальные 98.98% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации). F-статистика. Критерий Фишера.
или по формуле:
где
Табличное значение критерия со степенями свободы k1=1 и k2=4, Fтабл = 7.71
Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).
Задача 3.6.
По статистическим данным Росстата (таблица 3.11) выполнить комплексный статистический анализ инвестиций в основной капитал.
Таблица 3.11: Инвестиции в основной капитал, млн. руб.
Номер студента |
Регионы |
2012 |
2013 |
2014 |
|
4; 18 |
Республика Татарстан |
470751 |
525730 |
542781 |
Этапы:
- графическое представление информации и ее анализ;
- определение средних величин и показателей вариации;
- определение коэффициента корреляции между инвестициями и выбранным автором фактором по данным Росстата; оценка значимости коэффициента корреляции;
- определение показателей динамики инвестиций и их анализ;
- построение регрессионной модели связи инвестиций со временем (годами) и ее статистический анализ.
Решение:
Построим полигон распределения
Рисунок 1 - Полигон распределения
По данному графику мы видим, что инвестиции в основной капитал Республики Татарстан постоянно увеличивается
Показатели центра распределения.
Простая средняя арифметическая
Мода.
Имеются два показателя с одинаковым значением частоты f=1. Ряд имеет две моды, т.е. является бимодальным.
Медиана.
Me = 525730
Показатели вариации.
Абсолютные показатели вариации.
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = xmax - xmin = 542781 - 470751 = 72030
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.
Каждое значение ряда отличается от другого в среднем на 28224.22
Дисперсия -
Среднее квадратическое отклонение.
Каждое значение ряда отличается от среднего значения 513087.33 в среднем на 30734.97
Проведем корреляционный анализ между инвестициями и расходами
Таблица 3.12- Корреляционный анализ
Год |
Инвестиции |
Расходы |
|
2012 |
470751 |
548791 |
|
2013 |
525730 |
254871 |
|
2014 |
542781 |
547231 |
Для расчета параметров регрессии построим расчетную таблицу (табл. 3.13)
Таблица 3.13
X |
y |
x2 |
y2 |
x * y |
|
470751 |
548791 |
221606504001 |
301171561681 |
258343912041 |
|
525730 |
254871 |
276392032900 |
64959226641 |
133993330830 |
|
542781 |
547231 |
294611213961 |
299461767361 |
297026589411 |
|
1539262 |
1350893 |
792609750862 |
665592555683 |
689363832282 |
Для наших данных система уравнений имеет вид:
,
a,
1539262693126086988,66 - 789775834881,33b+792609750862b=689363832282
2833915980,67b= - 3762254706,66
b = -1,3276,
a = 1131462,9645
Уравнение имеет вид:
y = 1131462.9645 - 1.3276 x
Коэффициент корреляции.
Связь обратная и слабая
Система нормальных уравнений.
a*n + b*?x = ?y
a*?x + b*?x2 = ?y*x
Таблица 3.14
x |
Y |
x2 |
y2 |
x * y |
|
1 |
470751 |
1 |
221606504001 |
470751 |
|
2 |
525730 |
4 |
276392032900 |
1051460 |
|
3 |
542781 |
9 |
294611213961 |
1628343 |
|
6 |
1539262 |
14 |
792609750862 |
3150554 |
Для расчета параметров регрессии построим расчетную таблицу (табл. 3.14)
Для наших данных система уравнений имеет вид
б
a
6+14b=3150554
3078524 - 12b + 14b=3150554
2b=72030
b = 36015
a = 441057,3333
Уравнение имеет вид:
y = 36015 x + 441057,3333
Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
Коэффициент корреляции.
Коэффициент детерминации.
R2= 0.9572 = 0.9154
т.е. в 91.54% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 8.46% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
F-статистика. Критерий Фишера.
или по формуле:
где
Табличное значение критерия со степенями свободы k1=1 и k2=1, Fтабл = 161
Заключение
Статистика это наука, которая изучает приемы систематического наблюдения массовых явлений социальной жизни человека, составление численных их описаний и научную обработку этих описаний.
В ходе написания работы были выполнены все задачи. В первой части были рассмотрены основные термины по теме средние величины, такие, как вариация, мода, медиана, среднеквадратическое отклонение, дисперсия и выведены формулы, используемые для решения задач. Во второй части теоретически рассмотрен корреляционный анализ, изучены основные понятия и формулы, которые непосредственно были использованы для решения задач, по данной теме. В третьей части были рассмотрены теоретические основы регрессионного анализа, более подробно рассмотрены этапы решения задач на заданную тему, проведены расчеты индекса детерминации, стандартной ошибки, расчетного значения F-критерия Фишера, построены трендовая линейная регрессионная модель, полулогарифмическая модель и нелинейная обратная модель, а также сделаны выводы.
Список использованных источников
1. Береславская В.А., Стрельникова Н.М. Теория статистики: Учебное пособие. 2014г -136с.
2. Голуб Л.А.. социально-экономическая статистика: Учебное пособие для студентов высших учебных заведений.- М.:Гуманит. изд.центр Владос, 2013.- 272 с.
3. Гусев Н.Ю. Статистика: основы методологии: учебное пособие. - М.:Издательство АСВ,2012г - 230с.
4. Ефимова М.Р., Петрова Е.В. Румянцев В.Н. Общая теория статистики: учебник - 2-е издание испр. доп. - М.: ИНФРА-М, 2013 - 416с
5. Кошевой О.С., Некрылова Н.В. Общая теория статистики.Практикум: учебное пособие - Пенза: издательство ПГУ - 2017 - 136 с
6. Сиденко А.В., Матвеева В.А. Практикум по социально-экономической статистике. - М.: издательство "Дело и Сервис", 2012 - 144 с
7. Статистика: учебное пособие для высших учебный заведений по экономическим специальностям/В.М. Гусаров, Е.И. Кузнецова - Москва ЮНИТИ-ДАНА, 2013 - 479с
8. Харченко Н.М. Экономическая статистика: учебник/ Е.М. Хаченко - Москва: Дашков и К, 2014 -365с
Размещено на Allbest.ru
Подобные документы
Составление закона распределения случайной величины X—числа студентов, успешно сдавших экзамен. Расчет математического ожидания, дисперсии и среднего квадратического отклонения случайной величины. Таблица накопленных частот для сгруппированной выборки.
курсовая работа [1,8 M], добавлен 11.01.2015Определение для вариационного ряда: средней арифметической, дисперсии, моды, медианы, относительных показателей вариации. Проведение смыкания рядов динамики c использованием коэффициента сопоставимости. Вычисление агрегатных индексов цен и стоимости.
контрольная работа [23,0 K], добавлен 29.01.2011Прибыль и рентабельность как показатели, характеризующие результаты деятельности кредитных организаций. Построение статистического ряда распределения организаций, расчёт моды, медианы, дисперсии, коэффициента вариации, тесноты корреляционной связи.
курсовая работа [599,0 K], добавлен 06.12.2013Виды и применение абсолютных и относительных статистических величин. Сущность средней в статистике, виды и формы средних величин. Формулы и техника расчетов средней арифметической, средней гармонической, структурной средней. Расчет показателей вариации.
лекция [985,6 K], добавлен 13.02.2011Вычисление средней арифметической заработных плат, моды и медианы, размаха вариации, дисперсии и среднего квадратичного отклонения. Статистический анализ товарооборота, его динамики и показателей. Оценка стоимости продукции, средней цены, удельного веса.
контрольная работа [152,5 K], добавлен 08.01.2013Методические рекомендации для решения задач по общей теории статистики. Формулы для вычисления моды. Расчет медианы для интервального ряда. Определение средней арифметической простой, средней геометрической. Расчет индекса структурных сдвигов.
методичка [101,6 K], добавлен 22.03.2010Группировка магазинов по признакам. Определение среднемесячной заработной платы работника, средней продолжительности проживания в месте жительства, дисперсии, среднего квадратического отклонения, коэффициента вариации, средней численности населения.
контрольная работа [156,0 K], добавлен 05.01.2012Построение группировки магазинов математическим путем с использованием формулы Стерджесса по размеру товарооборота. Нахождение моды и медианы распределения работников по уровню заработной платы. Определение дисперсии, среднего квадратического отклонения.
контрольная работа [44,8 K], добавлен 09.07.2013Определение среднегодового надоя молока на 1 корову, моды и медианы продуктивности, дисперсии, среднеквадратического отклонения, коэффициента вариации. Вычисление тенденции развития явления, с расчетом показателей ряда динамики цепных и базисных.
контрольная работа [390,8 K], добавлен 25.04.2014Способы анализа ряда динамики: приведение параллельных данных, смыкание рядов динамики, аналитическое выравнивание. Расчет средних цен на товар; определение дисперсии, среднего квадратического отклонения, коэффициента вариации, индивидуальных индексов.
контрольная работа [65,5 K], добавлен 12.04.2012