Эвристический метод определения базиса регрессии
Эвристическое правило выбора функционального базиса в задаче построения функции регрессии. Выбор из множества возможных базисов такого, который доставляет минимум остаточной сумме квадратов, рассчитанной по проверочной выборке. Примеры эффективности.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 27.11.2018 |
Размер файла | 18,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Учреждение Российской академии наук Вычислительный центр им.А. А. Дородницына РАН
Эвристический метод определения базиса регрессии
Агасандян Г.А.
Аннотация
Предлагается эвристическое правило выбора функционального базиса в задаче построения функции регрессии. Оно сводится к выбору из заданного множества возможных базисов такого, который доставляет минимум остаточной сумме квадратов, рассчитанной по проверочной выборке, тогда как сами оценки для каждого базиса определяются по исторической выборке. Рассмотренные примеры для разных базисов демонстрируют его эффективность.
Введение
Нахождение функции регрессии при фиксированном функциональном базисе во многих прикладных задачах из разных сфер научной деятельности является рутинной вычислительной процедурой, называемой методом наименьших квадратов (МНК) и хорошо освоенной исследователями. Однако задаче о выборе самого базиса уделяется значительно меньше внимания, хотя более важной представляется именно она, поскольку результаты исследования зависят от ее решения в большей степени, чем от прочих факторов. В предлагаемой работе предлагается эвристический подход к выбору базиса регрессии, связанный с некоторым критерием сравнения разных базисов между собой.
В рамках классической задачи регрессии помимо многих задач, связанных с построением оценок неизвестных параметров регрессии и анализом их вероятностных свойств, решается и имеющая отношение к исследуемому нами вопросу задача о проверке гипотезы для функционального базиса регрессии ц (x) в целом при известной дисперсии ошибок у2 (см., например, [1-3]).
В соответствии с процедурой МНК вместе с оценками вычисляется и остаточная (наименьшая) сумма квадратов Smin. В предположениях нормальности и отсутствия систематических ошибок измерений оказывается, что величина Smin/у2 распределена по закону ч2 (n-k) (ч2 с n-k степенями свободы), n - количество измерений, k - количество неизвестных параметров.
Если qб (n-k) - б-квантиль распределения ч2 (n-k), а s2 = Smin/ (n-k) - нормированная сумма квадратов, то интервал s2/q1-л/2 ? у2 ? s2/qл/2 является доверительным для дисперсии ошибок у2 с коэффициентом доверия 1-л. При известной у2, этот же интервал можно использовать для проверки гипотезы о правильности выбора функционального базиса задачи.
Очевидно, если базис задачи совпадает с латентным (лежащим в основе модели, но не известным исследователю), то неравенство у2qл/2 ? s2 ? у2q1-л/2 нарушается с небольшой вероятностью. Поэтому при наличии альтернативы значительные отклонения от "нормы" оценки s2 для дисперсии ошибки у2 в обе стороны следует отнести скорее на счет неправильного выбора базиса.
Итак, если у2 (s2/q1-л/2, s2/qл/2), то гипотезу о базисе в целом следует отвергнуть, при этом ошибка первого рода - вероятность отвергнуть правильную гипотезу - равна л. Не в пользу гипотезы говорят как слишком малые в сравнении с у2 значения оценки s2, так и слишком большие. Первые возникают при неоправданно расширенном базисе, вторые - при излишне суженном.
регрессия эвристический метод базис
Эвристический метод: формализация и обоснование
Статистическое несоответствие результатов эксперимента гипотезе о выбранной модели интерпретируется как смещение МНК-оценок относительно латентных, и оно может быть в обе стороны. В связи с этим напрашивается эвристическое правило - метод дважды наименьших квадратов (МДНК).
Для имитации эксперимента с наблюдениями, обработкой результатов наблюдения и тестированием (верификацией) модели вся предыстория произвольным образом разбивается на две несовместные (желательно представительные) выборки (например, по времени поступления данных). Первая интерпретируется как собственно историческая выборка, а вторая - как проверочная (тестовая), относящаяся к настоящему или будущему.
Речь идет о применении обычного МНК к изначально расширенному классу функциональных базисов Ц, а общая задача решается в два этапа. На первом этапе по первой выборке для каждого базиса из класса находится МНК-оценка - оптимальный вектор параметров. На втором этапе эти векторы применяются ко второй выборке, и для каждого из них рассчитывается остаточная сумма квадратов. Оптимальным принимается базис (вместе с соответствующим этому базису вектору параметров), для которого остаточная сумма минимальна.
Предполагается, что существует латентная модель, реализующая функциональную зависимость z = flat (x) (в примерах она задается специально). Задается широкое множество Ц базисных функций в количестве r (|Ц| = r). Произвольно перенумеровываются элементы Ш = 2Ц\. Множества Шk Ш (k < 2r) образуют тестовые базисы для подзадач.
Вводятся привычные обозначения для совокупностей значений независимой, зависимой переменной, ошибок измерения и матрицы эксперимента соответственно в случаях исторической (i) и проверочной (ii) выборок (в случае (i) приводится и матричная форма оптимального по МНК решения):
(i) x = {xi}, z = {zi}, zi = f (xi) + ei, i = 1. n; A = {ail = цl (xi), i =1. n, l =1. r}. "k: МНК: иk = argminи (z-Akи) T (z-Akи) = (AkTAk) - 1AkTz; здесь Ak - сужение A на Шk, |Ak| = n|иk|,.
(ii) о = {оj}, ж = {жj}, жj = f (оj) + еj, j =1. н; B = {bjl = цl (оj), j =1. н, l =1. r}.
МДНК (можно применять совместно с принципом простоты): при этом иk расширяется до иk?, |иk?| = r (альтернатива: сокращение B до Bk, |Bk| = н|иk|).
Теоретические основы эвристической процедуры составляет
Теорема. Если истинный базис Ш содержится в системе Ш, Ш = Шm Ш, то сумма квадратов S1 = (ж - Bиk) T (ж - Bиk), рассчитанная по проверочной выборке, принимает минимальное значение на базисе Ш, т.е. m = argmink S1.
Иллюстративный пример
В качестве базиса Ц в иллюстративных примерах рассматривались наборы {1, x, …, xr-1}, {1, x, y, …, xr-1, xr-2y, …, xyr-2, yr-1}, {1, sin (x), cos (x),…, sin (2р (r-1) x), cos (2р (r-1) x) }, притом оба случая: flat (x) Ц и flat (x) Ц. Приведем лишь один из них с Ц = {1, x, …, xr-1}; r = 7, n = 40, н = 40, Д = 0.1; l = 3, уin = 0.101263, уout = 0.112046; и иlat = {1, 0, 0, - 1}, для него оптимальным будет и3 = {0.949863, 0.563732, - 1.42271}; s = {0.291002, 0.129241, 0.111689, 0.121512, 0.133321, 0.131577, 0.15959}.
При Д= 0.01 по понятным причинам реализуется уже более точное соответствие результата эвристики латентной модели. Метод дает вектор: и4 = {1.01039, - 0.115941, 0.266483, - 1.16145}; s = {0.266359, 0.0912089, 0.0217785, 0.0121512, 0.0133321, 0.0131577, 0.015959}.
Аналогично рассматриваются и многие иные примеры.
Заключение
Разумеется, в каждом конкретном эксперименте результаты носят случайный характер, и потому возможны отклонения оптимального по предлагаемому методу решения от латентной модели. Тем не менее многочисленные эксперименты, проведенные для различных базисов как в случае принадлежности латентной модели исследуемому базису, так и в противоположном случае, демонстрируют, что с ростом объемов выборок и точности наблюдений результаты демонстрируют устойчивое поведение в направлении сближения результирующей модели с латентной.
Литература
1. КРАМЕР Г. Математические методы статистики. М.: Мир, 1975. - 948 с.
2. ПУГАЧЕВ В.С. Теория вероятностей и математическая статистика. М.: Наука, 1979. - 496 с.
3. УИЛКС С. Математическая статистика. М.: Наука, 1967. - 632 с.
Размещено на Allbest.ru
Подобные документы
Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.
реферат [383,7 K], добавлен 19.08.2015Способы построения искусственного базиса задачи. Выражение искусственной целевой функции. Математическая модель задачи в стандартной форме. Получение симплекс-таблиц. Минимизации (сведения к нулю) целевой функции. Формы преобразования в задаче равенства.
задача [86,0 K], добавлен 21.08.2010Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Доказательство теоремы о линейно независимой системе векторов в пространстве Rn. Краткое рассмотрение базиса пространства Rn, в котором каждый вектор ортогонален остальным векторам базиса, особенности его представления на плоскости и в пространстве.
презентация [68,5 K], добавлен 21.09.2013Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010История открытия магических квадратов; элементарные принципы их построения. Линейный метод построения магических квадратов порядка n. Описание методов Москопула, альфила и Баше. Особенности построения магических квадратов четного и нечетного порядков.
курсовая работа [992,4 K], добавлен 24.07.2014Поверхности и ориентация. Теория внутренней поверхности. Выбор ориентации поверхности при помощи выбора базиса касательных векторов. Выбор вектора единичной нормали. Внутренняя геометрия поверхности, определение развертки и теорема Александрова.
реферат [144,0 K], добавлен 07.12.2012Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015