Корреляционно-регрессионный анализ туристических потоков
Корреляционная зависимость - статистическая взаимосвязь ряда случайных величин. Регрессионный анализ — метод моделирования данных и оценки их свойств. Расчет среднего квадратичного отклонения для проверки коэффициента корреляции на достоверность.
Рубрика | Экономико-математическое моделирование |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 10.11.2014 |
Размер файла | 343,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
Введение
Основные статистические методы уже довольно давно применяются во всех областях жизнедеятельности человека. Однако самую важную роль играет статистика для экономики. Ведь именно эта научная отрасль регулирует социально-экономические отношения субъектов хозяйствования, занимается анализом и обработкой огромного количества информации. Очень часто в экономических исследованиях находят решение определенной проблемы в выявлении факторов, которые определяют уровень, динамику процесса в экономике. Такую задачу зачастую решает корреляционно-регрессионный анализ. Для достижения достоверности проводимого анализа необходимо не только выявить определенные взаимосвязи, но и дать количественную оценку этим показателям. Корреляционно-регрессионный анализ решает такую задачу, как проверка гипотезы статистики о присутствии и силе корреляционной связи. Достаточное количество факторов, оказывающих влияние на процессы в экономике, не являются случайными величинами. Именно этот факт служит предпосылкой для анализа экономических явлений в аспекте связей между случайными и неслучайными величинами.
1. Теоретическая часть
Исследование объективно существующих связей между социально-экономическими явлениями и процессами является важнейшей задачей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения - это такая связь явлений и процессов, когда изменение одного из них - причины ведет к изменению другого - следствия.
Финансово-экономические процессы представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.
В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики.
Второй этап - построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее. Третий, последний этап - интерпретация результатов, вновь связан с качественными особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач исследования.
Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называются результативными.
В статистике различают функциональную и стохастическую зависимости. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков. Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению. По степени тесноты связи различают:
Табл. 1
До ±0,3 |
практически отсутствует |
|
±0,3 - ±0,5 |
слабая |
|
±0,5 - ±0,7 |
умеренная |
|
±0,7 - ±1,0 |
сильная |
По направлению выделяют связь прямую и обратную. Прямая - это связь, при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака. Так, рост объемов производства способствует увеличению прибыли предприятия. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака, то есть обратная - это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности.
Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; графический; аналитических группировок; корреляции, регрессии.
1.1 Корреляционный анализ
Корреляция (от лат. Correlatio -- соотношение, взаимосвязь), корреляционная зависимость -- статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение , либо коэффициент корреляции (или ). В случае если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.
Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором -- также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях -- это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин.
В статистике принято различать следующие виды зависимостей:
Парная корреляция - связь между двумя признаками (результативным и факторным, или двумя факторными).
Частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Ограничения корреляции:
1. Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.
2. Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.
3. Исходная совокупность значений должна быть качественно однородной.
4. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.
Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
1.2 Регрессионный анализ
Регрессионный анализ -- метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ -- раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных. Термин "регрессия" был введён Фрэнсисом Гальтоном в конце 19-го века. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен "регрессия к посредственности". Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.
В статистической литературе различают регрессию с участием одной свободной переменной и с несколькими свободными переменными -- одномерную и многомерную регрессию. Предполагается, что мы используем несколько свободных переменных. В частных случаях, когда свободная переменная является скаляром, она будет обозначаться x. Различают линейную и нелинейную регрессию. Если регрессионную модель не является линейной комбинацией функций от параметров, то говорят о нелинейной регрессии. При этом модель может быть произвольной суперпозицией функций из некоторого набора. Нелинейными моделями являются, экспоненциальные, тригонометрические и другие (например, радиальные базисные функции или персептрон Розенблатта), полагающие зависимость между параметрами и зависимой переменной нелинейной.
Различают параметрическую и непараметрическую регрессию. Строгую границу между этими двумя типами регрессий провести сложно. Сейчас нет существует общепринятого критерия отличия одного типа моделей от другого. Например, считается, что линейные модели являются параметрическими, а модели, включающие усреднение зависимой переменной по пространству свободной переменной --непараметрическими. Пример параметрической регрессионной модели: линейный предиктор, многослойный персептрон. Примеры смешанной регрессионной модели: функции радиального базиса. Непараметрическая модель -- скользящее усреднение в окне некоторой ширины. В целом, непараметрическая регрессия отличается от параметрической тем, что зависимая переменная зависит не от одного значения свободной переменной, а от некоторой заданной окрестности этого значения.
2. Практическая часть
По данным статистического исследования получена зависимость величины расходов туриста от стоимости путевки.
y - расходы [тыс. руб.]
x - стоимость путевки [тыс. руб.]
Табл. 2
x |
16 |
18 |
19 |
22 |
26 |
27 |
29 |
32 |
35 |
37 |
|
y |
14 |
11 |
10 |
17 |
23 |
21 |
24 |
25 |
31 |
28 |
Требуется провести корреляционно-регрессивный анализ, оценить степень взаимосвязи между С.В. X и Y, построить уравнение регрессии и сформулировать выводы по результатам исследования.
1. Построение корреляционного поля (рис. 1).
Рис. 1.
2. Статистическая оценка взаимосвязи. Вычисление коэффициент корреляции r
Табл. 3
n |
x |
y |
xy |
x2 |
y2 |
|
1 |
16 |
14 |
224 |
256 |
196 |
|
2 |
18 |
11 |
198 |
324 |
121 |
|
3 |
19 |
10 |
190 |
361 |
100 |
|
4 |
22 |
17 |
374 |
484 |
289 |
|
5 |
26 |
23 |
598 |
676 |
529 |
|
6 |
27 |
21 |
567 |
729 |
441 |
|
7 |
29 |
24 |
696 |
841 |
576 |
|
8 |
32 |
25 |
800 |
1024 |
625 |
|
9 |
35 |
31 |
1085 |
1225 |
961 |
|
10 |
37 |
28 |
1036 |
1369 |
784 |
|
? |
261 |
204 |
5768 |
7289 |
4622 |
корреляционный регрессионный статистический квадратичный
Выводы:
1) Полученное значение коэффициента говорит о том, что связь между случайной величиной x (стоимостью путевки) и случайной величиной y (расходы туристов) существует и является прямой, т.е. чем больше стоимость путевки, тем выше расходы туристов.
2) По характеру эта связь является очень жесткой, следовательно, учитывая степень жесткости связи можно, построить регрессионную модель для случайных величин X и Y.
3. Проверка коэффициента корреляции на значимость.
Так как полученное нами значение появилось в результате обработки данных по выборке, то, согласно требованиям статистики каждый такой параметр должен пройти проверку на значимость (проверку на достоверность).
а) найдем среднее квадратичное отклонение:
б) найдем наблюдаемое значение критерия Стьюдента:
в) найдем по таблицам критическое значение критерия Стьюдента:
г) сформулируем нулевую гипотезу, т.е. будем предполагать, что никакой связи между случайными величинами нет:
H0:"r=0".
Сформулируем конкурирующую гипотезу, т.е. будем предполагать, что связь существует.
H1:"r?0".
Так как наблюдаемое значение критерия не попадает в область принятия гипотезы Н0, то гипотеза отклоняется, следовательно автоматически принимается гипотеза H1.
Это означает, что полученный нами коэффициент корреляции является значимым.
4. Построим линейное уравнение модели регрессии.
Пусть уравнение модели регрессии имеет вид:
Следовательно, требуется найти значение двух параметров a и b.
Имеем:
5. Построение совместных графиков исходных данных и регрессионной модели.
Рис. 2
Табл. 4
0 |
|||
0 |
M1(0;-3,873);
M2(4,16;0);
6. Проверка значений параметров модели
Так как а было нами получено по данным выборки, то требуется выполнить процедуру их проверки на значимость.
Проверка параметра .
Параметр a отвечает за угол наклона прямой к оси Ox.
Для выполнения такой проверки требуется найти значения отклонений ei в каждой точке исходных данных.
Найдем дисперсию отклонения по выборке:
Найдем дисперсию параметра a - Da:
Найдем среднее квадратичное отклонение параметра a.
.
Найдем наблюдаемое значение t - критерия Стьюдента, для проверки a на значимость.
сформулируем нулевую гипотезу:
H0:"a=0".
Сформулируем конкурирующую гипотезу.
H1:"a?0".
Так как наблюдаемое значение критерии в область принятия гипотезы Н0 не попадает, то эта гипотеза отклоняется, следовательно автоматически принимается гипотеза H1 является значимым (т.е. угол наклона прямой к оси Ox мы построили правильно).
Проверка параметра на значимость.
Найдем дисперсию параметра b - Db.
Найдем среднее квадратичное отклонение параметра b.
Найдем наблюдаемое значение t - критерия Стьюдента, для проверки b на значимость.
Сформулируем нулевую гипотезу H0:"b=0".
Сформулируем конкурирующую гипотезу H1:"b?0".
Следовательно, b проверку на значимость не прошел, и в уравнении модели мы должны обнулить этот параметр.
Таким образом, окончательно уравнение модели регрессии принимает вид:
Рис. 3
Выводы по результатам исследований
1. Было выявлено наличие жесткой взаимосвязи между стоимостью путевки и расходами туристов, коэффициент проверку прошел.
2. Учитывая степень жесткости связи между x и y, было построено линейное уравнение модели
3. Проверка на значимость параметров модели показала, что параметр a прошел проверку, а параметр b нет, вследствие чего линейное уравнение модели приняло вид .
Заключение
корреляционный регрессионный статистический квадратичный
Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи. Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у и представляющая собой однофакторный корреляционный и регрессионный анализ.
Регрессионный анализ своей целью имеет вывод, определение (идентификацию) уравнения регрессии, включая статистическую оценку его параметров. Уравнение регрессии позволяет найти значение зависимой переменной, если величина независимой или независимых переменных известна. Ряд авторов считают корреляционный анализ частью регрессионного анализа, а другие полагают, что регрессионный анализ является частью корреляционного, как общей теории взаимосвязи между случайными величинами. Практически, речь идет о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности, точно отражающую заключенную в этом множестве закономерность (тренд, тенденцию) - линию регрессии.
Корреляционно-регрессионный анализ широкое применение в обработке статистических данных для достижения лучших показателей туристических потоков.
Список литературы
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Издательский дом «Вильямс». 2007.
2. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. -- 4-е издание, переработанное и дополненное. -- Москва: Финансы и Статистика, 2002. -- 480с.
3. Общая теория статистики: Учебник / Под ред. Р.А. Шмойловой. -- 3-е издание, переработанное. -- Москва: Финансы и Статистика, 2002. -- 560с.
Размещено на Allbest.ru
Подобные документы
Понятие корреляционно-регрессионного анализа как метода изучения по выборочным данным статистической зависимости ряда величин. Оценка математического ожидания, дисперсии, среднего квадратического отклонения и коэффициента корреляции случайных величин.
курсовая работа [413,0 K], добавлен 11.08.2012Контроль информации на наличие выбросов в массиве. Описательная статистика, вывод итогов. Матрица коэффициентов парной корреляции. Количественный критерий оценки тесноты связи. Регрессионный анализ статистических данных. Анализ качества модели регрессии.
контрольная работа [5,7 M], добавлен 14.12.2011Получение функции отклика показателя качества Y2 и формирование выборки объемом 15 и более 60. Зависимость выбранного Y от одного из факторов Х. Дисперсионный анализ и планирование эксперимента. Проведение корреляционного и регрессионного анализа.
курсовая работа [827,2 K], добавлен 19.06.2012Метод наименьших квадратов; регрессионный анализ для оценки неизвестных величин по результатам измерений. Приближённое представление заданной функции другими; обработка количественных результатов естественнонаучных опытов, технических данных, наблюдений.
контрольная работа [382,4 K], добавлен 16.03.2011Эффективная оценка по методу наименьших квадратов. Корелляционно-регрессионный анализ в эконометрическом моделировании. Временные ряды в эконометрических исследованиях. Моделирование тенденции временного ряда. Расчет коэффициента автокорреляции.
контрольная работа [163,7 K], добавлен 19.06.2015Степень тесноты и характера направления зависимости между признаками. Парная линейная корреляционная зависимость, ее корреляционно-регрессионный анализ. Исследование связи между одним признаком-фактором и одним признаком-результатом, шкала Чеддока.
методичка [75,0 K], добавлен 15.11.2010Построение поля корреляции, оценка тесноты связи с помощью показателей корреляции и детерминации, адекватности линейной модели. Статистическая надёжность нелинейных моделей по критерию Фишера. Модель сезонных колебаний и расчёт прогнозных значений.
практическая работа [145,7 K], добавлен 13.05.2014Определение методом регрессионного и корреляционного анализа линейных и нелинейных связей между показателями макроэкономического развития. Расчет среднего арифметического по столбцам таблицы. Определение коэффициента корреляции и уравнения регрессии.
контрольная работа [4,2 M], добавлен 14.06.2014Построение сетевого графика выполнения работ по реконструкции цеха, определение его параметров. Корреляционно-регрессионный анализ; расчет коэффициента корреляции между производительностью труда и рентабельностью предприятия; оптимизация ассортимента.
контрольная работа [803,4 K], добавлен 16.09.2011Построение линейного уравнения парной регрессии, расчет линейного коэффициента парной корреляции и средней ошибки аппроксимации. Определение коэффициентов корреляции и эластичности, индекса корреляции, суть применения критерия Фишера в эконометрике.
контрольная работа [141,3 K], добавлен 05.05.2010