Робастные методы оценивания ошибок

Робастные исследования как раздел статистики, изучающий аномальные измерения при обработке экономической информации. Способы выявления и борьбы с погрешностями измерений. Методы исчисления устойчивых статистических оценок Пуанкаре, Винзора, Хубера.

Рубрика Экономика и экономическая теория
Вид курсовая работа
Язык русский
Дата добавления 13.12.2014
Размер файла 352,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

1. Грубые ошибки

2. Устойчивые методы оценки основные понятия

3. Методы выявления грубых ошибок

4. Методы исчисления устойчивых статистических оценок: Пуанкаре, Винзора, Хубера

Рекомендуемая литература

Приложение

1. Грубые ошибки

В процессе обработки экономической информации, как правило, считают, что экономические показатели подчиняются нормальному распределению. Однако практика обработки такой информации показывает, что экономические показатели не так часто подчиняются теоретическому нормальному распределению. Наблюдаются односторонние и двухсторонние отклонения. Статистическая информация представляет собой смесь нескольких законов распределения с разными дисперсиями. Иногда из-за малого объема выборки не представляется возможным достаточно точно определить вид закона, засоряющего распределения. При применении метода наименьших квадратов небольшое число грубых ошибок может заметно исказить значения характеристик распределения.

При решении задач статистического анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными.

Посмотрим на примере что же такое грубые ошибки. В таблице 1 приведены данные о выручке магазина за 10 дней.

Таблица 1- Пример грубых ошибок.

Как видим значения 16596 и 43894 резко выделяются из общей совокупности. Определением проблемы, являются эти значения ошибками или это реальные значения, занимается такой раздел статистики как - робастные исследования.

Итак, что же такое грубая ошибка? Это резко выделяющиеся наблюдения; данные, которые резко засоряют общую статистическую совокупность.

Методы робастного оценивания - те методы, которые позволяют получать достаточно надежные оценки статистической совокупности с учетом неясности закона ее распределения и наличия существенных отклонений в значениях данных.

В борьбе с грубыми погрешностями измерений, если они не были обнаружены в процессе измерений, используют два подхода:

· исключение резко выделяющихся аномальных измерений из дальнейшей обработки;

· использование робастных методов обработки.

Исключение резко выделяющихся аномальных явлений имеет широкое применение, но этот способ не может полностью удовлетворить аналитика. Причина этого в том, что из общей совокупности можно удалить очень много значений, а следовательно полученный результат не будет соответствовать действительности. Эта проблема ощутима и при небольших объемах совокупности.

Основы робастных методов оценки были разработаны академиками А.Н. Колмогоровым, Н.В. Смирновым и Б.С. Ястремским. Дальнейшее развитие робастные методы получили в работах американских и швейцарских математиков.

Грубые ошибки, в основном, появляются при сборе информации, при ее передаче либо при нестрогих первичных экономических расчетах. Поэтому при проведении многомерного анализа очень важное значение имеют методы устойчивого оценивания.

В настоящее время в науке используется несколько методов оценивания и обработки экономической информации.

2. Устойчивые методы оценивания

Методы оценивания, чувствительные к «грубым ошибкам», называются неустойчивыми.

Методы оценивания, учитывающие наличие «грубых ошибок» и позволяющие при этом достаточно точно определять оценки параметров, называются робастными или устойчивыми. Таковыми являются методы Хубера, Винзора, Пуанкаре и ряд других методов.

Пусть совокупность вместе с «обычными» значениями элементов содержит «грубые ошибки». При этом основная масса элементов является реализацией случайной величины, закон распределения которой известен с точностью до некоторого параметра. Вероятность появления этих элементов в совокупности равна

1-е, где е -- вероятность появления другой случайной величины -- з, определяющей грубые ошибки. Однако это условие является условным.

Например, известно, что средняя арифметическая оценка является несмещённой, состоятельной и эффективной оценкой математического ожидания, однако её эффективность падает с увеличением числа наблюдений, значительно удалённых от среднего значения.

Лаплас и Гаусс выявили преимущества и недостатки средней абсолютной ошибки

,

,

где ;

- i-е значение случайной величины;

- среднее значение случайной величины.

При наличии серии наблюдений

,

средняя абсолютная и средняя квадратическая ошибки определяют разные характеристики распределения ошибок. Отношение их предельных значений для нормального распределения ошибок:

.

Еще в начале XIX века Ф. Бессаль отметил, что в большинстве случаев реальные распределения имеют «утяжелённые хвосты» (наблюдения, значительно удалённые от среднего значения), по сравнению с табличным нормальным распределением. В ХХ в. утяжеление хвоста реальных распределений отмечено во многих наборах статистической информации. Д. Тьюки предложил свою модель для оценки характеристик распределения с утяжеленными относительно нормальной совокупности хвостами. В ней предусматривается наличие нормальной совокупности с математическим ожиданием м, дисперсией , которая засоряется другой нормальной совокупностью с этим же математическим ожиданием и с дисперсией .

Распределение Тьюки имеет вид:

,

где

.

Часто для сравнения средней абсолютной ошибки со средней квадратической ошибкой используется асимптотическая характеристика

,

где e(е) - относительная асимптотическая эффективность по отношению к .

Если засорения нет, то для определения требуется на 12% меньше наблюдений, чем для определения . Однако уже при малом засорении преимущество быстро падает. Наоборот, с ростом засорения относительная эффективность быстро растёт. При засорении, равном 0,18%, e(0,18)=1.

Итак, легко убедиться в том, что процедуры, предусмотренные теорией нормальных ошибок, не устойчивы к «грубым» ошибкам. Более устойчивыми оказываются процедуры, связанные с определением средней абсолютной ошибки . Известен целый ряд методов исключения резко выделяющихся наблюдений.

Наиболее доступным и распространенным является анализ измерений с точки зрения экономической сущности полученных наблюдений. Для выявления резко выделяющихся наблюдений имеется ряд критериев, которые являются несмещенными, инвариантными по отношению к преобразованиям совокупности и требуют добавления константы или умножения каждого члена совокупности на положительное число.

3. Методы выявления грубых ошибок

Обработку засорений производят по следующему плану:

1) Распознавание ошибок и данных;

2) Выбор метода и проведение робастного оценивания данных;

3) Критериальная и логическая проверка и интерпретация результатов устойчивого оценивания.

Простым способом для обнаружения грубых ошибок является Т - Критерия Граббса:

- среднее значение. Оценка выборочной средней находится по истинным данным либо

s - Выборочное среднеквадратическое отклонение случайной величины.

Полученные значения сравнивают с табличными значениями процентных точек критерия Смирнова Граббса (см. приложение А). Если >, то проверяемое значение является грубой ошибкой и относится к классу выбросов. Критерий Граббса имеет некоторые недостатки. Он не точен, и не чувствителен к засорениям когда ошибки группируются на расстоянии от общей совокупности.

По сравнению с оценками Граббса оценками грубых ошибок признаются L- и E- критерии, предложенные американскими статистиками Г. Тритьеном. И Г.Муром.

1. L-Критерий. Применяется для вычисления грубых ошибок в верхней части ранжированного ряда данных:

,

где - выборка наблюдений по какому-либо одному, j-му признаку;

n - Объем выборки;

k - Число наблюдений с резко отклоняющимися значениями признака;

- общая для выборочной совокупности данных средняя величина;

- средняя, которую рассчитывают по n - k наблюдениям, остающимися после отбрасывания k грубых ошибок «сверху» ранжированного ряда данных:

2. - критерий применяется для грубых ошибок в данных, расположенных в нижней части ранжированного ряда данных:

,

где - средняя рассчитанная по n-k наблюдениям, остающимися после отбрасывания k грубых ошибок «снизу»:

.

3. E-критерий используется, когда в выборке имеются предположительно грубые ошибки с наибольшими и наименьшими значениями, т.е. расположенные в верхней и в нижней части ранжированного ряда данных:

,

где - средняя, рассчитанная по «истинным» данным после отбрасывания из выборки наименьших (к) и наибольших - значений засоряющих совокупность данных:

.

Все три критерия имеют табулированное табличные критические значения для заданного уровня значимости б при известном объеме выборки n и предполагаемом числе ошибок К. Если наблюденные значения критериев оказываются меньше пороговых Са,к, то ошибки в данных, признаются грубыми. Иначе данные типичны для данной совокупности.

Пример.

Имеются данные о количестве русских автомобилей на 2000 автомобилей в 20-ти городах.

Таблица 2 - Исходные данные.

На основе этих данных найдем обычные оценки средней и дисперсии и устойчивые оценки, учитывающие наличие в данных грубых ошибок.

Решение:

Таблица 3 - Ранжированный ряд данных.

В исходных данных вызывают сомнения данные 44,89; 55,26; 1606,41; 1788,56. Они отмечены жирным шрифтом в таблице 2. Можно предположить, что эти данные записаны неверно, взяты из другой графы отчетности или, наконец, представляют города резко отличающимися от основной совокупности своими экологическими характеристиками. Проверим эти данные на «засорение», применив критерий Граббса:

Сравним полученные значения с табличным (при =0,10) при числе наблюдений равном 20 Ткр=2,447 (см. приложение Б).

1,390729634 < 2.447

1,364776432 < 2.447

2,518736004 > 2.447

2,974754931 > 2.447

Т3(1606.41) и Т4(1788.56) больше табличных следовательно значения 1606,41 и 1788,56 аномальные. Проведем более тщательную проверку этих значений при помощи критерия Титьена и Мура:

Мы применяем Е - критерий так как имеем предположение, что имеются грубые ошибки как с наибольшим, так и с наименьшим засорением то есть в нашем случае это 4 ошибки.

Проводятся расчеты по усеченным данным то есть данным в которых отсутствуют предполагаемые ошибки.

Сравним полученные результаты с табличными данными (см. приложение В.)

Таблица Критические значения Са-оценки для критерия Титьена и Мура (=0,05)

Число наблюдений необходимо взять равное 20-ти и кол-во ошибок равное 4-ем 0,026 < 0,221 следовательно все значения (44,89; 55,26; 1606,41; 1788,56.) являются засорением. (Табличные данные берем при а=0,05)

ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ

Используя приемы Граббса, Титьена и Мура, определите наличие грубых ошибок в совокупности данных.

4. Методы исчисления устойчивых статистических оценок: пуанкаре, винзора, хубера

После обнаружения выбросов в данных необходимо оценить параметры выборочной совокупности. При этом используется два метода:

1. Ошибки отбрасываются. Они исключаются из общей совокупности и расчеты проводятся по оставшимся данным.

2. Ошибки модифицируются, то есть ошибки заменяются на значения близкие к ним.

Пуанкаре предложил для расчета средней по усеченной совокупности (урезанной средней) формулу:

,

где - число грубых ошибок.

- целая часть от произведения .

- объем выборочной совокупности за исключением ошибочных данных.

- некоторая функция засорения выборки (значения смотрятся по таблице -- приложение Г).

По Винзору средняя определяется также с заранее известным по формуле:

,

Помимо средних величин по винзорированным данным могут быть найдены и другие показатели.

Помимо рассмотренных методов оценки широкое применение имеет классический подход Хубера. При это используется некоторая величина К, определяемая с учетом степени засорения статистической совокупности и определяющая шаг модификации резко отличающихся наблюдений.

Оценка средней величины по Хуберу:

,

где - Устойчивая оценка, определяется при помощи итеративных процедур;

- величина, которая допускается в качестве отклонения от центра совокупности, принимает постоянные значения с учетом удельного веса грубых ошибок в совокупности данных ;

-Численность группы наблюдений из совокупности, отличающихся наименьшими значениями: , или значения в интервале ();

- Численность группы наблюдений из совокупности, отличающихся наибольшими значениями: , или значения в интервале ();

При расчетах по приведенной выше формуле в качестве начальной оценки может применяться обычная средняя арифметическая или медиана, оцененная по выборке. Затем на каждой итерации производится разделение выборочной совокупности на три части. В одну часть попадают «истинные» признаковые значения, которые остаются без изменения (). В две другие части совокупности (для и ) попадают «ошибки», они не исключаются из рассмотрения, а заменяются соответственно на величины и . По «истинным» и модифицированным данным каждый раз определяется новая оценка средней и итерация возобновляется. Итерации повторяются до тех пор, пока все наблюдения не оказываются в интервале «истинных» значений:

Оценка , найденная по методу Хубера, представляется достаточно эффективной, но быстро теряет оптимальные свойства с увеличением засорения выборки (ростом ).

Пример.

Итак, рассчитаем устойчивые оценки. Для этого построим следующую таблицу:

Таблица 4 - Данные об количестве автомобилей отечественного производства.

Найдем значение параметра (для этого разделим кол-во ошибок (4) на количество данных всей совокупности (20) и посмотрим значение по специальной таблице (см. приложение Д). при значении =0,2)

Найдем = = 600,38

Теперь разобьем совокупность данных на 3 группы:

1. Не значительно отличающиеся от

2. Существенно меньше величины .

3. Существенно превышающие .

Затем соответствующим образом модифицируем , если , или :

Таблица 5 - Данные разбиты на совокупности.

Рассчитаем оценку по данным, модифицированным первый раз :

Возобновим итерацию по данным, модифицированным на предыдущем шаге:

Для второй итерации оценка будет:

Чтобы удостовериться, что многомерное значение является действительно выбросом, обычно используют расстояние Махаланобиса:

грубый ошибка робастный погрешность

где Х- Вектор признаковых значений, подозреваемых на выброс.

- вектор средних значений для многомерной совокупности данных;

- Матрица ковариаций.

Критерий F для для проверки гипотезы о существенности отклонения случайного вектора Х строиться следующим образом:

.

Для F- критерия существуют числа степеней свободы. При заданном уровне значимости , если , проверяемое наблюдение действительно признается аномальным. В противном случае отклонение случайного от вектора средних значений считается приемлемым, а гипотеза о «засорении» совокупности отбрасывается.

а) Одно из наблюдений, которое предположительно является «засорением», подвергается проверке. Если предположение оправдывается, «выброс» устраняется из выборки;

б) по усеченной совокупности многомерных объектов определяется новый вектор средних значений;

в) проверке подвергается следующий объект, повторяются шаги а и б, и т.д.

К выявленным грубым ошибкам в многомерной совокупности можно применять уже известные для одномерного случая приемы обработки данных: их устранение, или винзорирование.

Итак, наиболее простые методы поиска ошибок Граббса, Титьена и Мура. Если в статистической совокупности действительно выявлены грубые ошибки, то применяем методы Пуанкаре, Хубера и Винзора.

ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ

Имеются сведения о размере прибыли, млн руб. (X1) и объёме основных производственных фондов (X2) по 20 производственным предприятиям:

Рассчитать обычную и устойчивую средние, используя методы Пуанкаре и Винзора, сравните полученные результаты.

Рекомендуемая литература

1. Дубров А.М. Компонентный анализ и эффективность в экономике: Учебное пособие. - М.: Финансы и статистика. 2002. - 352 с.

2. Многомерный статистический анализ. А.М.Дубров, В.С.Мхитарян, Л.И. Трошин. - М.: «Финансы и статистика», 2000. - 352 с.

3. Многомерный статистический анализ в экономике. Л.А.Сошникова, В.Н.Тамашевич, Г.Уебе, М. Шеффер. - М.: «ЮНИТИ-ДАНА», 1999. - 598 с.

4. Прикладная статистика и основы эконометрики. С.А.Айвазян, В.С.Мхитарян. - М.: «ЮНИТИ», 1998. - 1022 с.

5. Решение математических задач средствами Excel: Практикум / В.Я. Гельман.-- СПб.: Питер, 2003.-240 с.

6. http://www.exponenta.ru

Приложение

Процентные точки критерия Смирнова -Грабса (Т)

Критические значения Самооценки для и - критериев Титьена и Мура (=0,05)

Критические значения Самооценки для критерия Титьена и Мура (=0,05)

Значения для расчета устойчивых оценок Т (а) - Пуанкаре и W (a) -Винзора

Значения = для расчета устойчивой оценки Хубера

Размещено на Allbest.ru


Подобные документы

  • Краткая история зарождения и развития статистики как науки. Предмет изучения и характеристика основных задач статистики. Статистические методы сбора и обработки данных для получения достоверных оценок и результатов. Источники статистических данных.

    лекция [23,7 K], добавлен 13.02.2011

  • Формализованные методы финансового анализа. Традиционные и классические методы экономической статистики. Экономико–математические методы анализа. Математическо-статистические методы изучения связей. Финансовые вычисления и теория принятия решения.

    курсовая работа [196,0 K], добавлен 05.05.2009

  • Социально-экономическая статистика как общественная наука. Ее сущность и основные методы, применяемые в ней. Проблемы интеграции отечественной статистики в международную статистику. Задачи социально-экономической статистики в условиях рыночной экономики.

    лекция [17,4 K], добавлен 14.03.2010

  • История возникновения и развития статистики. Предмет, основные понятия и категории статистики. Методы сбора, обобщения и анализа статистических данных. Экономическая статистика и ее отрасли. Современная организация статистики в Российской Федерации.

    лекция [16,5 K], добавлен 02.05.2012

  • Понятие статистики как науки, предмет и методы ее изучения, основные цели и задачи. Категории статистики и ее показатели, способы представления результатов. Сущность и классификация относительных и средних величин. Понятие ряда динамики и его анализ.

    реферат [192,6 K], добавлен 15.05.2009

  • Способы сбора и группировки статистических сведений, полученных в результате наблюдений или экспериментов. Методы анализа статистических данных в зависимости от целей исследования. Проверка статистических гипотез, оценка неизвестной вероятности события.

    курсовая работа [172,8 K], добавлен 15.11.2009

  • Предмет экономической теории. Методы познания экономической действительности в практике развития экономики как науки. Основные принципы системного исследования, применимые к экономическим наукам. Способы и приемы познания экономической действительности.

    реферат [48,2 K], добавлен 11.01.2011

  • Статистика как одна из древнейших отраслей знаний, возникшая на базе хозяйственного учета. Развитие статистики как науки. Определение предмета статистики. Статистическое наблюдение как этап статистического исследования. Методы и показатели статистики.

    контрольная работа [38,9 K], добавлен 20.01.2010

  • Понятие экономической статистики, ее цели, задачи и основные методы исследования. Классификация счетов и принципы построения СНС. Предприятие как хозяйствующий субъект (на примере НГДУ "Елховнефть"). Анализ показателей статистики издержек производства.

    курсовая работа [629,5 K], добавлен 23.06.2010

  • Изучение предмета, задач, методов исследования (наблюдение - сплошное, выборочное; группировка, обобщающие показатели) социальной-экономической статистики в условиях рынка. Ознакомление с организационной и информационной базами государственной статистики.

    реферат [28,5 K], добавлен 10.05.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.