Процедуры выбора наилучшего регрессионного уравнения
Процедура выбора наилучшего регрессионного уравнения, краткий анализ. Метод выбора "наилучшего подмножества" предикторов. Регрессия на главных компонентах, на собственных значениях. Расчет коэффициента детерминации. Средняя ошибка аппроксимации.
| Рубрика | Математика |
| Вид | статья |
| Язык | русский |
| Дата добавления | 02.02.2019 |
| Размер файла | 2,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Статья по теме:
Процедуры выбора наилучшего регрессионного уравнения
А.В. Быкова, О.Н. Канева Омский государственный технический университет, г. Омск, Россия
В ходе проведения исследования были изучены процедуры выбора наилучшего регрессионного уравнения, проведен их анализ. Был разработан и реализован программный продукт для выбора наилучшего регрессионного уравнения.
Ключевые слова: регрессия, предиктор, наилучшее регрессионное уравнение, МГУА, МНК, полином Колмогорова-Габора.
В работе рассмотрено 10 различных процедур выбора наилучшего регрессионного уравнения.
1) Метод всех возможных регрессий. Данный метод требует построения каждого из всех возможных регрессионных уравнений с переменными Zi. Поскольку для каждой Zi есть всего две возможности: либо входить, либо не входить в уравнение, то всего будет 2iуравнений.
2) Метод выбора «наилучшего подмножества» предикторов. В данном методе обрабатывается только часть всех возможных регрессий при определении наилучшего набора, включающего K уравнений, так называемого «K-подмножества»[1].
3) ПРЕСС - это комбинация метода всех возможных регрессий, анализа остатков и метода перепроверки.
4) Гребневая регрессия. Процедура используется, когда имеются значительные корреляции между разными предикторами, входящими в модель, и оценки параметров становятся неустойчивыми.
5) Регрессия на главных компонентах. В данном методе проблему мультиколлинеарности можно попытаться обойти используя в качестве новых переменных некоторые линейные комбинации исходных переменных, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали.
6) Регрессия на собственных значениях - это развитие регрессии на главных компонентах с расширенной матрицей данных, содержащей центрированные и нормированные предикторные переменные, дополненной центрированными и нормированными значениями отклика.
7) Ступенчатый регрессионный метод. После получения регрессионного уравнения для переменной X, наиболее сильно коррелированной с Y, находят остатки. Эти остатки рассматриваются как значения отклика, и строится регрессия этого отклика на предикторную переменную X, которая наиболее сильно коррелирована с этим новым откликом.
8) Метод исключения. Данный метод более экономичен, чем метод всех регрессий, поскольку в нем делается попытка исследовать только наилучшие регрессионные уравнения, содержащие определенное число переменных.
9) Шаговый регрессионный метод. Данный метод представляет собой попытку прийти к тем же результатом, что и метод исключения, действуя в обратном направлении, т. е. включая переменные по очереди в уравнение до тех пор, пока уравнение не станет удовлетворительным. Порядок включения определяется с помощью частного коэффициента корреляции как меры важности переменных, еще не включенных в уравнение[2].
Для программной реализации выбора наилучшей регрессионной модели было решено использовать процедуру группового учета аргументов.
10) Метод группового учета аргументов. Целью данного метода является получение модели в результате перебора моделей из индуктивно-порождаемого множества. Каждая модель настраивается - методом наименьших квадратов находятся значения параметров. Из моделей-претендентов выбираются лучшие в соответствии с выбранным критерием.[3]
Выбирается общий вид перебираемых моделей с помощью полинома Колмогорова-Габора:
Для двух факторов количество построенных уравнений регрессии по полиному Колмогорова-Габора равно 31, для 3 факторов - 1023. Для 4 факторов количество моделей равно 131071. Так как число моделей велико,рассчитать все значения становится достаточно затруднительно, для этого была предложена реализация метод группового учета аргументов на языке программирования С#.
На вход в программу поступают массивы значений переменных из файлов формата csv. На выходе пользователь видит коэффициенты регрессии, оценки качества, а также построенный график наилучшей модели. На рисунках 1 и 2 представлены результаты работы программы для рядов с двумя и тремя факторами соответственно.
Рисунок 1 - Результат работы программы для двух факторов
Рисунок 2 - Результат работы программы для трех факторов
Для оценки качества модели используется средняя ошибка аппроксимации, которая представляет собой среднее относительное отклонение расчетных значений от наблюдаемых:
.(1)
Построенное уравнение регрессии можно считать удовлетворительным, если величина MAPI не превышает 8-10 %.
Точность построенной модели регрессии можно оценить по средней квадратической ошибке:
. (2)
Для анализа общего качества оцененной линейной регрессии используют обычно коэффициент детерминации , называемый также квадратом коэффициента множественной корреляции. Он характеризует долю вариации (разброса) зависимой переменой, объясненной с помощью данного уравнения. Коэффициент детерминации рассчитывается по формуле:
, (3)
регрессионный уравнение предиктор детерминация
На реальных данных были построены модели, найдены коэффициенты регрессии и вычислены прогнозируемые значения уравнений. Найдены оценки качества, построенных моделей, с помощью которых можно было выявить наилучшее регрессионное уравнение.
Библиографический список
1. Ханк Д. Бизнес-прогнозирование [Текст] / Д. Ханк, А. Райтс, Д. Уичерн. - 7-е изд. - М., СПб., Киев: Вильямс, 2003. - 656 с.
2. Дрейпер, Н. Прикладной регрессионный анализ [Текст]: пер. с англ. Ю. П. Адлером, В. Г. Горским. / Н. Дрейпер, Г. Смит. - книга 2, 2-е изд. - М.: Финансы и статистика, 2012. - 304 с.
3. Профессиональный информационно-аналитический ресурс [Электронный ресурс]. - Режим доступа: http://www.machinelearning.ru/wiki, свободный. - Загл. с экрана.
Размещено на Allbest.ru
Подобные документы
Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.
лабораторная работа [22,3 K], добавлен 15.04.2014Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Понятие иррационального уравнения. Применение формул сокращённого умножения. Посторонние корни и причины их появления. Возведение обеих частей уравнения в одну и ту же степень. Метод замены переменной. Иррациональные уравнения, не имеющие решений.
презентация [94,6 K], добавлен 08.11.2011Построение таблицы и графика решения линейного дифференциального уравнения. Зависимость погрешности решения от выбора шага интегрирования. Метод Адамса-Башфорта и его применение. Основные функции и переменные, использованные в реализованной программе.
контрольная работа [2,0 M], добавлен 13.06.2012История квадратных уравнений: уравнения в Древнем Вавилоне и Индии. Формулы четного коэффициента при х. Квадратные уравнения частного характера. Теорема Виета для многочленов высших степеней. Исследование биквадратных уравнений. Сущность формулы Кордано.
реферат [75,8 K], добавлен 09.05.2009Предмет, метод и история возникновения статистики. Построение таблиц, понятие абсолютных и относительных величин и правила действия с ними. Сущность вариации, свойства дисперсии и расчет индексов. Особенности корреляционно-регрессионного анализа.
курс лекций [302,0 K], добавлен 14.07.2011Характеристика и прогноз развития Ленинградской области: демография, промышленность. Исследование показателей объема произведенного ВРП, собственных доходов бюджета, инвестиций, промышленного производства с помощью методов регрессионного анализа.
курсовая работа [432,7 K], добавлен 21.08.2008Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Исследование и подбор матрицы, удовлетворяющей условиям заданного уравнения. Разложение функции по формуле Тейлора в окрестности точки, расчет коэффициентов. Формирование уравнения гиперболы, имеющего заданные координаты фокусов. Расчет корней уравнения.
контрольная работа [113,2 K], добавлен 16.04.2016


