Сложности и проблемы, связанные с множественной регрессией
Статистические и вычислительные последствия мультиколлинеарности. Ее влияние на регрессию. Результаты статистического анализа в выборе переменной. Классификация их перечня по приоритетам. Проблема неправильного выбора модели регрессионного анализа.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 29.09.2013 |
Размер файла | 28,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Сложности и проблемы, связанные с множественной регрессией
Введение
К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этой лекции приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).
Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.
Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то что эти переменные могут хорошо пояснять и прогнозировать У (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.
Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х- переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х- переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нужную Х- переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная X- переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.
Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений заключается в создании новых Х- переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.
1. Мультиколлинеарность: не слишком ли схожи между собой объясняющие переменные?
Когда какие-то из объясняющих Х- переменных слишком схожи между собой, у вас может возникнуть проблема мультиколлинеарности, поскольку множественная регрессия не в состоянии отличить влияние одной переменной от влияния другой переменной. Последствия мультиколлинеарности могут быть статистическими или вычислительными.
1. Статистические последствия мультиколлинеарности связаны с трудностями проведения статистических тестов для отдельных коэффициентов регрессии вследствие увеличения стандартных ошибок. Результатом может быть невозможность объявить ту или иную Х- переменную значимой даже в том случае, если эта переменная (сама по себе) имеет сильную взаимосвязь с У.
2. Вычислительные последствия мультиколлинеарности связаны с трудностями в организации вычислений на компьютере, вызванными "неустойчивостью вычислений". В крайних случаях компьютер может пытаться выполнить деление на нуль и, таким образом, неудачно завершить анализ данных. Хуже того, компьютер может завершить анализ и выдать бессмысленные и неверные результаты. Деление на нуль невозможно с математической точки зрения: например, результат выполнения 5/0 является неопределенным. Однако из-за небольших ошибок округления в процессе вычислений компьютер может разделить не 5 на 0, а 5,0000000000968 на 0,0000000000327. В этом случае, вместо того чтобы остановиться и сообщить об ошибке, компьютер использует в дальнейших вычислениях бессмысленный и огромный результат такого деления: 152 905 198 779,72.
Мультиколлинеарность может порождать проблемы, а может и не порождать их, - все зависит от конкретных целей выполняемого вами анализа и степени мультиколлинеарности. Небольшая или средняя мультиколлинеарность обычно не представляет проблемы. Очень сильная мультиколлинеарность (например, включение одной и той же переменной дважды) всегда будет представлять проблему и может приводить к серьезным ошибкам (вычислительные последствия). К счастью, если вашей целью является в основном предсказание или прогнозирование У, сильная мультиколлинеарность может не представлять серьезного препятствия, поскольку качественная программа множественной регрессии может и в этом случае делать оптимальные прогнозы У (по методу наименьших квадратов), основанные на всех Х- переменных. Однако если вы хотите использовать индивидуальные коэффициенты регрессии для выяснения того, как каждая из Х- переменных влияет на У, то статистические последствия мультиколлинеарности, по-видимому, вызовут определенные проблемы, ввиду того что эти влияния невозможно отделить друг от друга. В табл. 1 подытоживается влияние мультиколлинеарности на результаты регрессионного анализа.
Таблица 1. Влияние мультиколлинеарности на регрессию
Степень мультиколлинеарности |
Влияние на регрессионный анализ |
|
Незначительная |
Вообще не представляет проблемы |
|
Средняя |
Как правило, не представляет проблем ы |
|
Сильная |
Статистические последствия: зачастую представляет собой проблему, если требуется оценить влияние отдельных Х- переменных (т.е. коэффициенты регрессии); может не представлять проблемы, если цель заключается в предсказании или прогнозировании У |
|
Чрезвычайно сильная |
Численные последствия: всегда представляет собой проблему; компьютерные вычисления могут даже оказаться неправильными из-за неустойчивости вычислений |
Как выяснить, действительно ли существует проблема мультиколлинеарности? Один из простейших способов ответить на этот вопрос заключается в анализе обычных двумерных корреляций для каждой пары переменных. Корреляционная матрица представляет собой таблицу, которая содержит коэффициенты корреляции для каждой пары переменных из вашей многомерной совокупности данных. Чем выше коэффициент корреляции между двумя Х- переменными, тем больше мультиколлинеарность. Это объясняется тем, что высокая корреляция (близкая к 1 или -1) указывает на сильную связь и свидетельствует о том, что эти две Х- переменные измеряют очень схожие характеристики, привнося тем самым в анализ "пересекающуюся" информацию.
Основной статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых или всех коэффициентов регрессии (). Это вполне естественно: если две Х- переменные содержат "пересекающуюся" информацию, трудно определить влияние каждой из них в отдельности. Высокое значение стандартной ошибки приводит к тому, что компьютер сообщает вам приблизительно следующее: "Я вычислил для вас коэффициент регрессии, но результат неточный, поскольку трудно сказать, эта или какая другая переменная является определяющей". В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, а t-тесты вряд ли будут значимыми.
В случае сильной мультиколлинеарности может оказаться, что регрессия очень высоко значима (исходя из результатов F-теста), однако ни один из t-тестов для отдельных Х- переменных значимым не является. Компьютер сообщает вам о том, что Х- переменные, рассматриваемые как единая группа, весьма сильно влияют на У, но практически невозможно определить важность какой-то конкретной переменной. Следует помнить, что t-тест для конкретной X- переменной измеряет ее влияние на У при условии, что значения других переменных остаются неизменными. Таким образом, t-тест для переменной Xi выявляет только дополнительную информацию, привнесенную переменной Xi помимо той информации, которую несут другие Х- переменные. Если какая-то другая переменная очень близка к Xi, тогда переменная Xi не привносит в регрессию значимо новую информацию.
Одно из решений заключается в том, чтобы проигнорировать те X- переменные, которые дублируют информацию, уже присутствующую в других Х- переменных. Если, например, ваши Х- переменные включают три различные измерения размера, попробуйте либо избавиться от двух из них, либо объединить все три переменные в единую меру размера (например, воспользовавшись их средним значением).
Другое решение заключается в том, чтобы переопределить некоторые из переменных с тем, чтобы каждая из Х- переменных выполняла четкую, присущую только ей одной роль в определении У. Распространенный способ применения этой идеи к группе близких друг к другу Х- переменных заключается в том, чтобы взять для представления этой группы одну Х- переменную (можно либо выбрать одну из этих Х- переменных, либо сформировать из них индекс) и представить остальные переменные как относительные показатели (например, величина на единицу другого показателя), построенные из этой представляющей X- переменной. Например, можно представлять зависимость размера объема продаж (У) с помощью численности населения (X1) и общего дохода (Х2) для каждого региона. Однако эти переменные являются мультиколлинеарными (т.е. численность населения и общий доход -- высоко коррелированные величины). Эту проблему можно решить, объясняя объем продаж (Y) с помощью численности населения (X1) и размера дохода на одного человека (новая переменная Х2). В результате численность населения будет выполнять роль представляющей переменной, отражая общую величину территории, а доход, вместо того чтобы повторять уже известную нам информацию (о величине соответствующей территории), переопределяется и несет новую информацию (о благосостоянии людей).
2. Выбор переменной: может быть, мы пользуемся "не теми" переменными?
Результаты статистического анализа в значительной мере зависят от имеющейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых ("объясняющих") X- переменных для множественного регрессионного анализа. Включение как можно большего числа Х- переменных "просто так, на всякий случай" или потому, что "создается впечатление, будто каждая из них как-то влияет на У" -- далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (F-тест), или - вследствие мультиколлинеарности, вызванной наличием избыточных переменных, -- у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии.
Что происходит, когда вы включаете одну лишнюю, неуместную X-переменную? Значение R2 в этом случае окажется несколько большим, так как несколько большую долю У можно объяснить за счет случайности этой новой переменной. Однако F-тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R2 нельзя считать преимуществом.
На самом деле включение дополнительной Х- переменной может принести небольшой или даже умеренный вред. Оценка того или иного неуместного параметра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, Se. По техническим причинам следствием этого является менее мощный F-тест, который может не обнаружить значимость даже в том случае, когда Х- переменные в генеральной совокупности на самом деле объясняют У.
А что произойдет в случае, когда вы проигнорируете необходимую Х- переменную? В результате из совокупности данных выпадет важная и полезная информация и ваше прогнозирование У будет менее точным, чем в случае использования этой Х- переменной. Стандартная ошибка оценки, Se,, в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), а R2, как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации У). Естественно, если вы проигнорируете критически важную X- переменную, то, возможно, F-тест для этой регрессии просто будет незначим.
Ваша задача в данном случае - включить ровно столько Х- переменных, сколько нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х- переменные, которые необходимы. Если у вас есть сомнения, можно включить некоторые из Х- переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне X- переменных). Существует также множество различных автоматических методов.
3. Классификация перечня Х- переменных по приоритетам
Хороший способ определить круг важных Х- переменных заключается в том, чтобы внимательно проанализировать решаемую задачу, имеющиеся данные и цели, которых вы хотите добиться. Затем необходимо составить список Х- переменных, классифицированных по приоритетам. Сделать это можно следующим образом.
Выберите переменную У, которую вам необходимое объяснить, понять или прогнозировать.
Выберите Х- переменную, которая, как вам кажется, является наиболее важной в определении или объяснении У. Если это вызывает у вас затруднения, поскольку все Х- переменные кажутся вам одинаково важными, примите волевое решение.
Выберите самую важную среди оставшихся Х- переменных, задав себе вопрос: "Принимая во внимание первую переменную, какая из оставшихся
Х- переменных несет больше новой информации, объясняющей поведение
переменной У?"
Продолжайте выбирать по этому принципу самые важные из оставшихся Х- переменных до тех пор, пока не классифицируете по приоритетам весь перечень Х- переменных. На каждой стадии задавайте себе вопрос: "Принимая во внимание уже отобранные Х- переменные, какая из оставшихся Х- переменных несет больше новой информации, объясняющей поведение переменной У?"
Затем вычислите регрессию, используя лишь те Х- переменные из составленного вами списка, которые кажутся вам важнейшими. Вычислите еще несколько регрессий, включая в свой анализ некоторые из оставшихся Х- переменных (или все эти переменные), и выясните, действительно ли они влияют на прогнозирование переменной У. Наконец, выберите тот результат регрессии, который кажется вам наиболее полезным.
Несмотря на то, что описанная процедура выглядит достаточно субъективной (поскольку зависит в основном от вашего субъективного мнения), ей присущи два важных преимущества. Во-первых, когда необходимо сделать выбор между двумя Х- переменными, которые практически одинаково объясняют поведение переменной У, окончательный выбор остается за вами (автоматизированная процедура может в этом случае сделать менее содержательный выбор). Во-вторых, тщательно классифицировав по приоритетам свои независимые Х- переменные, вы можете глубже разобраться в исследуемой ситуации. Такое прояснение решаемой задачи может оказаться не менее полезным, чем результаты множественной регрессии!
4. Проблема неправильного выбора модели
статистический мультколлинеарность регрессия
Прежде всего, следует помнить, что масса серьезных проблем возникает в случае, когда приходится иметь дело с временным, а не с одновременно срезанными, наборами данных, применительно к которому допущения стандартной модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.
Размещено на Allbest.ru
Подобные документы
Описание способов нахождения коэффициентов регрессии модели полнофакторного эксперимента. Проверка многофакторных статистических гипотез на однородность ряда дисперсий, значимость и устойчивость математических коэффициентов множественной корреляции.
контрольная работа [1,2 M], добавлен 05.08.2010Функциональные и стохастические связи. Статистические методы моделирования связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Проверка адекватности регрессионной модели.
курсовая работа [214,6 K], добавлен 04.09.2007Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.
контрольная работа [140,5 K], добавлен 17.08.2014Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.
дипломная работа [440,4 K], добавлен 23.07.2013Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Формирование массивов данных результатов контроля, представленных в форме матрицы. Основные статистические характеристики. Построение диаграмм. Определение коэффициентов точности технологического процесса и параметров контрольных карт, их построение.
курсовая работа [539,6 K], добавлен 14.10.2011Алгоритм проведения регрессионного анализа для создания адекватной модели, прогнозирующей цены на бензин на будущий период. Основы разработки программного обеспечения, позволяющего автоматизировать исследования операций в заданной предметной области.
контрольная работа [182,0 K], добавлен 06.02.2013