Методы и средства экспериментальной обработки информации
Формирование таблиц с исходными данными в программе Statistica. Построение гистограммы временного вариационного ряда. Создание траектории ряда, описание его поведения, фильтрация ряда. Основные статистические характеристики исходного временного ряда.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 15.10.2015 |
Размер файла | 1,3 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Первое высшее техническое учебное заведение России
Министерство образования и науки Российской Федерации
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«Национальный минерально-сырьевой университет «горный»
Кафедра информационных систем и вычислительной техники
Контрольная работа
по дисциплине «Методы и средства экспериментальной обработки информации»
Выполнила:
студентка 5-го курса
Специальности 230202.65
Мифоленкова Татьяна Сергеевна
Проверила:
преподаватель
Юшкова Ольга Викторовна
Санкт-Петербург 2015
Введение
В настоящее время, для изучения свойств сложных систем, в том числе и при экспериментальных исследованиях, широко используется подход, основанный на анализе сигналов, произведенных системой. Это очень актуально в тех случаях, когда математически описать изучаемый процесс практически невозможно, но в нашем распоряжении имеется некоторая характерная наблюдаемая величина. Поэтому анализ систем, особенно при экспериментальных исследованиях, часто реализуется посредством обработки регистрируемых сигналов. Например, в аритмологии в качестве такого сигнала используется электрокардиограмма, в сейсмологии запись колебаний земной коры, в метеорологии данные метеонаблюдений и т.п.
Обычно такой сигнал называется наблюдаемой, а метод исследования реконструкцией динамических систем. Методы анализа данных, представленных в виде временных рядов, т.е. в виде последовательностей измерений, упорядоченных в неслучайные моменты времени. В отличие от анализа случайных выборок, анализ временных рядов основывается на предположении, что последовательные значения в файле данных наблюдаются через равные промежутки времени (тогда как в других методах нам не важна и часто не интересна привязка наблюдений ко времени).
Существуют две основные цели анализа временных рядов: (1) определение природы ряда и (2) прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям). Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена, вы можете с ее помощью интерпретировать рассматриваемые данные (например, использовать в вашей теории для понимания сезонного изменения цен на товары, если занимаетесь экономикой). Не обращая внимания на глубину понимания и справедливость теории, вы можете экстраполировать затем ряд на основе найденной модели, т.е. предсказать его будущие значения.
Существует много программных средств позволяющих, как сгруппировать данные, построить и проанализировать сложные таблицы сопряженности, разбив пациентов на группы по полу, возрасту, симптомам болезни и исследовать зависимости в каждой группе; каким образом сравнить средние показатели пациентов в различных группах; как провести анализ выживаемости; избежать появления искусственных эффектов; подтвердить или опровергнуть гипотезы, провести сложную классификацию, используя дискриминантный анализ или деревья классификации. Следует заметить, что у каждого врача имеется собственный архив данных, отражающий многолетний опыт его работы - огромный массив знаний, имеющий большую познавательную ценность, начало которому положено, возможно, задолго до начала эры компьютеризации. Ценность этой информации может быть многократно увеличена, если воспользоваться статистическими методами: данные следует структурировать, визуализировать -- отобразить на графиках, а значимость результатов строго доказать. И в этот момент на помощь врачу приходит наука статистика и современные системы, делающие обработку данных, доступной практически всем. Применение статистических методов имеет свои шаблоны и рецепты, как и при постановке диагноза, однако эти методы осваиваются гораздо быстрее, благодаря современным компьютерным технологиям. Собственно, наша цель состоит в том, чтобы научится анализировать данные, организовать исследование, оценить значимость результатов, обнаружить скрытые закономерности и связи. Известно несколько средств, предназначенных для статистического исследования данных: SAS, SPSS, S плюс, STATISTICA, Excel, Mathcad и др.
В данной контрольной работе для реализации задач по анализу и прогнозированию временного ряда был выбран пакет STATISTICA. С его помощью, будут рассмотрены следующие этапы анализа и прогнозирования временного ряда: определение основных статистических характеристик; построение графиков исходных данных; выявление соответствия данных нормальному и равномерному закону распределения; графическое представление временного ряда; проверка моделей тренда; определение наличия сезонности во временном ряду с помощью автокорреляции и спектрального анализа Фурье; построение модели экспоненциального сглаживания временного ряда; построение модели АРПСС; проверка подобранных моделей на адекватность; кросспроверка прогнозирования временного ряда; прогнозирования временного ряда на 10 шагов помощью построенной.
1. Определение основных статистических характеристик
1.1 Формирование таблиц с исходными данными
Данные в программе STATISTICA организованы в виде электронной таблицы. Это более эффективная форма представления статистических данных, в нашем случае временного вариационного ряда. Исходный ряд состоит из 108 данных, представленных в таблице 1.
Таблица 1
1 |
1,721 |
28 |
1,6 |
55 |
3,151 |
82 |
4,027 |
|
2 |
1,609 |
29 |
1,231 |
56 |
4,2 |
83 |
2,431 |
|
3 |
1,565 |
30 |
1,367 |
57 |
3,314 |
84 |
3,745 |
|
4 |
1,324 |
31 |
1,47 |
58 |
2,068 |
85 |
3,768 |
|
5 |
1,193 |
32 |
1,249 |
59 |
0,407 |
86 |
2,371 |
|
6 |
1,591 |
33 |
1,296 |
60 |
2,126 |
87 |
1,377 |
|
7 |
1,808 |
34 |
1,327 |
61 |
3,549 |
88 |
1,989 |
|
8 |
1,858 |
35 |
1,203 |
62 |
3,151 |
89 |
2,568 |
|
9 |
1,546 |
36 |
1,395 |
63 |
3,812 |
90 |
2,089 |
|
10 |
1,578 |
37 |
0,985 |
64 |
4,225 |
91 |
11,08 |
|
11 |
1,947 |
38 |
1,385 |
65 |
2,371 |
92 |
3,629 |
|
12 |
1,726 |
39 |
1,007 |
66 |
0,938 |
93 |
4,683 |
|
13 |
1,605 |
40 |
1,483 |
67 |
4,654 |
94 |
4,774 |
|
14 |
1,704 |
41 |
1,655 |
68 |
3,158 |
95 |
3,988 |
|
15 |
1,653 |
42 |
1,499 |
69 |
1,109 |
96 |
4,519 |
|
16 |
1,52 |
43 |
1,577 |
70 |
3,43 |
97 |
4,06 |
|
17 |
1,244 |
44 |
1,777 |
71 |
2,519 |
98 |
3,526 |
|
18 |
1,71 |
45 |
1,515 |
72 |
2,059 |
99 |
4,015 |
|
19 |
1,725 |
46 |
1,34 |
73 |
2,253 |
100 |
3,7 |
|
20 |
1,63 |
47 |
1,684 |
74 |
3,134 |
101 |
4,599 |
|
21 |
1,553 |
48 |
1,741 |
75 |
2,984 |
102 |
3,406 |
|
22 |
1,411 |
49 |
1,853 |
76 |
2,39 |
103 |
3,941 |
|
23 |
1,497 |
50 |
1,541 |
77 |
3,215 |
104 |
3,503 |
|
24 |
1,602 |
51 |
1,605 |
78 |
4,182 |
105 |
4,827 |
|
25 |
1,431 |
52 |
4,753 |
79 |
2,31 |
106 |
3,553 |
|
26 |
1,785 |
53 |
3,167 |
80 |
5,453 |
107 |
3,436 |
|
27 |
1,728 |
54 |
2,726 |
81 |
4,62 |
108 |
3,93 |
1.2 Построение гистограммы временного вариационного ряда
Графический способ облегчает рассмотрение статистических данных, делает их наглядными, выразительными, обозримыми. На графике сразу видны пределы изменения показателя, сравнительная скорость изменения разных показателей, их колеблемость. Вместе с тем графики имеют определенные ограничения: прежде всего график не может включить столько данных, сколько может войти в таблицу; кроме того, на графике показываются всегда округленные данные - не точные, а приблизительные. Таким образом, график используется только для изображения общей ситуации, а не деталей. Для наиболее полного и наглядного представления данных и их описательных статистик построим гистограмму (Histograms) (рис.1.) и график на нормальной вероятностной бумаге (Normal probaЬility plots) (рис.2.), которые позволят визуально сравнить эмпирическое распределение данных с нормальным и ответить на вопрос о допустимости аппроксимации эмпирического распределения нормальным законом.
Рис. 1. Гистограмма распределения исходного ряда
На рис.1. представлена гистограмма исходного временного вариационного ряда. Гистограмма показывает, что распределение имеет выраженный пик, следовательно, распределение является унимодальным. Распределение имеет тяжелый левый «хвост», что говорит о большом отклонении значений некоторых наблюдений по дисперсии в сторону меньших значений относительно среднего.
Построим график на нормальной вероятностной бумаге (рис.2.).
Рис. 2. График на нормальной вероятностной бумаге
На данном графике (рис.2.) наблюдается очевидное несовпадение с прямой, данные располагаются относительно линии в виде «волны». График позволяет сделать предположение о недопустимости описания данных с помощью нормального распределения.
1.
2. Анализ временного ряда
2.1 Построение траектории ряда, описание его поведения, фильтрация ряда
В отличие от анализа случайных выборок, анализ временных рядов основывается на предположении, что последовательные значения в файле данных наблюдаются через равные промежутки.
Существуют две основные цели анализа временных рядов:
· определение природы ряда;
· прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям).
Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена, то можно с ее помощью интерпретировать рассматриваемые данные, например сезонные изменения. Не обращая внимания на глубину понимания и справедливость теории, можно также экстраполировать ряд на основе найденной модели, т.е. предсказать его будущие значения.
Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд - представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Тренд является монотонным (устойчиво возрастает или устойчиво убывает). Если временные ряды содержат значительную ошибку, то первым шагом выделения тренда является сглаживание. Сглаживание всегда включает некоторый способ локального усреднения данных, при котором несистематические компоненты взаимно погашают друг друга. Самый общий метод сглаживания - скользящее среднее, в котором каждый член ряда заменяется простым или взвешенным средним п соседних членов, где п - ширина «окна».
Сезонная составляющая -- это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно. Периодическая и сезонная зависимость (сезонность) представляет собой другой общий тип компонент временного ряда. Ее можно измерить с помощью автокорреляции (т.е. корреляции между самими членами ряда); k обычно называют лагом (иногда используют эквивалентные термины: сдвиг, опаздывание). Если ошибка измерения не слишком большая, то сезонность можно определить визуально, рассматривая поведение членов ряда через каждые k временных единиц.
Как и большинство других видов анализа, анализ временных рядов предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку), который затрудняет обнаружение регулярных компонент. Большинство методов исследования временных рядов включает различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо.
Не существует "автоматического” способа обнаружения тренда во временном ряде. Однако если тренд является монотонным (устойчиво возрастает или устойчиво убывает), то анализировать такой ряд обычно нетрудно. Если временные ряды содержат значительную ошибку, то первым шагом выделения тренда является сглаживание.
Сглаживание всегда включает некоторый способ локального усреднения данных, при котором несистематические компоненты взаимно погашают друг друга. Самый общий метод сглаживания - скользящее среднее, в котором каждый член ряда заменяется простым или взвешенным средним п соседних членов, где п - ширина "окна". Вместо среднего можно использовать медиану значений, попавших в окно. Основное преимущество медианного сглаживания, в сравнении со сглаживанием скользящим средним, состоит в том, что результаты становятся более устойчивыми к выбросам (имеющимся внутри окна). Таким образом, если в данных имеются выбросы (связанные, например, с ошибками измерений), то сглаживание медианой обычно приводит к более гладким или, по крайней мере, более "надежным" кривым, по сравнению со скользящим средним с тем же самым окном. Основной недостаток медианного сглаживания в том, что при отсутствии явных выбросов, он приводит к более "зубчатым" кривым (чем сглаживание скользящим средним) и не позволяет использовать веса.
Относительно реже, когда ошибка измерения очень большая, используется метод сглаживания методом наименьших квадратов, взвешенных относительно расстояния или метод отрицательного экспоненциально взвешенного сглаживания. Все эти методы отфильтровывают шум и преобразуют данные в относительно гладкую кривую. Ряды с относительно небольшим количеством наблюдений и систематическим расположением точек могут быть сглажены с помощью бикубических сплайнов. Итак, получим график траектории ряда:
Рис. 3. График траектории ряда
График показывает изменения амплитуды колебаний ряда. На всем протяжении временной ряд неравномерный, т.к. наблюдаются резкие скачки. Рассматривая график, я не могу однозначно сказать, имеется ли в данных тренд. Однако из графика отчетливо видно, что в ряде присутствует сезонная составляющая. Отсюда следует, что ряд не стационарен.
2.2 Определение основных статистических характеристик
Данные в программе Statistica организованы в виде электронной таблицы. Это более эффективная форма представления статистических данных, в нашем случае временного вариационного ряда.
Определим следующие основные статистические характеристики (рис.3.):
• Valid N
• Mean
• Median
• Standard Deviation
• Variance
• 95% confidence limits of mean
• Minimum, maximum
• Skewness
• Kurtosis
Данные были подвергнуты статистической обработке, при этом определились основные статистические характеристики, представленные на рис. 4.
средство экспериментальный обработка информация
Рис. 4. Основные статистические характеристики исходного временного ряда
Из рисунка видно, что наблюдения второй части имеют дисперсию - 1,439. Дисперсия исходного временного ряда является относительно не большая по величине.
Асимметрия показывает, в какую сторону относительно среднего сдвинуто большинство значений распределения. Нулевое значение асимметрии означает симметричность распределения относительно среднего значения, положительная асимметрия указывает на сдвиг распределения в сторону меньших значений, а отрицательная асимметрия - в сторону больших значений. В большинстве случаев за нормальное принимается распределение с асимметрией, лежащей в пределах от -1 до +1.
В исследованиях, не требующих высокой точности результатов, нормальным считают распределение с асимметрией, по модулю не превосходящей 2.
Эксцесс является мерой «сглаженности» («остро» или «плосковершинности») распределения. Если значение эксцесса близко к О, это означает, что форма распределения близка к нормальному виду. Положительный эксцесс указывает на «плосковершинное» распределение, у которого максимум вероятности выражен не столь ярко, как у нормального. Значения эксцесса, превышающие 5.0, говорят о том, что по краям распределения находится больше значений, чем вокруг среднего. Отрицательный эксцесс, напротив, характеризует «островершинное» распределение, график которого более вытянут по вертикальной оси, чем график нормального распределения. Считается, что распределение с эксцессом диапазоне от -1 до +1 примерно соответствует нормальному виду. В большинстве случаев вполне допустимо считать нормальным распределение с эксцессом по модулю не превосходящим 2.
Новый график (рис. 5) траектории ряда явно возрастает, что указывает на наличие тренда.
Рис. 5. Новый график траектории ряда
Определение модели тренда временного ряда
Поскольку зависимость от времени может принимать разные формы, для ее формализации можно использовать различные виды функций. Для построения трендов чаще всего применяются следующие функции:
Линейный тренд:
.
Для линейной формы тренда характерно равенство так называемых первых разностей (абсолютных приростов) и нулевые вторые разности, т. е. ускорения.
Гипербола:
;
Экспоненциальный тренд:
(или );
Степенная функция:
;
Полиномы различных степеней:
.
Для данного типа кривой постоянными являются вторые разности (ускорение), а нулевыми - третьи разности. Параболическая форма тренда соответствует ускоренному или замедленному изменению уровней ряда с постоянным ускорением
Логарифмическая форма тренда:
у = а0 + а1 * ln(t)
Логарифмическим трендом может быть описана тенденция, проявляющаяся в замедлении роста уровней ряда динамики при отсутствии предельно возможного значения. При достаточно большом t логарифмическая кривая становится мало отличимой от прямой линии.
Для того объективно сделать прогноз необходимо вычесть тренд из нашего временного ряда (рис. 4).
Рис. 6. График временного ряда с вычетом тренда
На рисунке 6 видно, что после вычитания тренда, график стал однородней.
Построение автокорреляционной и частной автокорреляционной функций
Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса со сдвигом по времени.
Для выявления трендовой, циклической компонент можно использовать коэффициент автокорреляции уровней ряда и автокорреляционную функцию. Автокорреляционная функция (АКФ) -- это последовательность коэффициентов автокорреляции уровней первого, второго и последующих порядков. Соответственно график зависимости значений АКФ от величины лага (порядка коэффициента корреляции) - коррелограмма. Анализ АКФ и коррелограммы позволяет определить лаг, при котором автокорреляция наиболее высокая, а следовательно, и лаг, при котором связь между текущим и предыдущими уровнями ряда наиболее тесная.
Коэффициент автокорреляции характеризует тесноту только линейной связи текущего и предыдущего уровней ряда. Если ряд имеет сильную нелинейную тенденцию, коэффициент автокорреляции может приближаться к нулю. Знак его не может служить указанием на наличие возрастающей или Убывающей тенденции в уровнях ряда.
Частная автокорреляция (ЧАКФ) -- эго дополнительный метод идентификации модели (исследования периодичности колебаний) ряда, представляющий собой углубление понятия обычной АКФ. В ЧАКФ устраняется зависимость между промежуточными наблюдениями внутри лага. Другими словами, ЧАКФ на данном лаге аналогична обычной автокорреляции, за исключением того, что при вычислении из нее удаляется влияние автокорреляций с меньшими лагами.
На лаге 1 (когда нет промежуточных элементов внутри лага), ЧАКФ равна, очевидно, обычной автокорреляции. На самом деле, ЧАКФ дает более «чистую» картину периодических зависимостей.
Доверительный интервал - это интервал, в который с определенной вероятностью попадает оценка статистического показателя генеральной совокупности (параметр).
Также признаком стационарности ряда можно считать тенденцию к быстрому затуханию автокорреляционной функции ряда.
Для этого построим график автокорреляционной функции:
Рис. 7. График автокорреляционной функции
Как видно из рис.7 график автокорреляционной функции не имеет тенденции к быстрому затуханию. При увеличении лага до 15, видны периодические колебания в значениях автокорреляционной функции, свидетельствующие о сезонных колебаний, следовательно, ряд не является стационарным.
Рис. 8. График частной автокорреляционной функции
На рис. 8 также видны периодические колебания в значениях автокорреляционной функции, свидетельствующие о сезонных колебаниях, а также независимости друг от друга величин.
Подбор математической модели
Моделью временных рядов называется зависимость результативной переменной от переменной времени или переменных, относящихся к другим моментам времени.
Основными инструментами идентификации порядка модели являются I графики, автокорреляционная функция (АКФ) и частная автокорреляционная [функция (ЧАКФ). Идентификация модели стационарного временного ряда предназначена для предварительного определения типа модели авторегрессия, скользящее среднее или смешанный процесс и порядка модели - значения р и q.
При идентификации модели, как правило, пользуются следующими правилами:
Если h первых значений АКФ отличны от нуля, а ЧАКФ по модулю асимптотически стремится к нулю, то имеет место процесс АPCС (0,h) -- скользящего среднего порядка h:
Если h первых значений ЧАКФ отличны от нуля, а АКФ по модулю асимптотически стремится к нулю, то имеет место процесс APCC(h,0) - авторегрессии порядка h.
Если значения АКФ и ЧАКФ по модулю асимптотически стремятся к нулю, то имеет место смешанный процесс АРСС (р, q).
Для привидения ряда к стационарному виду, необходимо провести трансформирование ряда.
Рис. 9. Расчет модели авторегрессии
Рис. 10. Результат модели авторегрессии ARIMA
Рис. 11. График трансформированного ряда
Построим АКФ И ЧАКФ трансформированного ряда и проверим подходит ли данная модель для прогнозирования.
Размещено на Allbest.ru
Подобные документы
Предварительный анализ заданного временного ряда на предмет наличия тренда. Обоснование наличия сезонности по графическому представлению одноименных элементов ряда разных лет. Применение модели для прогноза. Выбор типа остатков и корректировка модели.
контрольная работа [218,8 K], добавлен 12.09.2011Исходный текст программы и ее экранная форма. Программа вычисления и выдачи на печать суммы/произведения элементов бесконечного числового ряда, вычисления числового ряда для известного числа членов ряда. Значение максимального элемента в матрице.
контрольная работа [29,0 K], добавлен 07.12.2010Ввод ряда дат. Созданиу упорядоченный ряд дат в строке или столбце. Ввод ряда дат с автозаполнением. Создание рядов. Форматирование дат и времени. Арифметические операции с датами. Функции дат и времени. Специальные функции для работы с датами.
лабораторная работа [14,4 K], добавлен 10.03.2007Определения "ряд" и "сумма ряда". Свойства и сходимость сумм числового ряда. Основные методики приближенного нахождения суммы бесконечных рядов. Методы расчета сумм числовых рядов и формулы суммирования. Особенности разложения по специальным функциям.
курсовая работа [1,3 M], добавлен 09.01.2017Последовательность разработки чертежа и модели с типоразмерами из параметрического ряда. Построение таблицы переменных в соответствии с исходными данными. Проектирование параметрической модели в системе Компас-3D, внешние переменные для чертежа детали.
практическая работа [5,9 M], добавлен 14.04.2016Определение абсолютных и относительных показателей изменения уровней ряда динамики. Определение абсолютного размера одного процента прироста и средних показателей ряда динамики. Реализация численных методов при использовании алгоритмического языка Pascal.
курсовая работа [174,9 K], добавлен 06.10.2013"Наивная" модель прогнозирования. Прогнозирование методом среднего и скользящего среднего. Метод опорных векторов, деревьев решений, ассоциативных правил, системы рассуждений на основе аналогичных случаев, декомпозиции временного ряда и кластеризации.
курсовая работа [2,6 M], добавлен 02.12.2014Вычисление суммы ряда с заданной точностью. Форма представления исходных данных. Разработка алгоритма и его описание. Выбор метода обработки информации. Упорядочение элементов строк матрицы по возрастанию. Программа подсчета числа слов в предложении.
курсовая работа [23,9 K], добавлен 11.02.2016Изучение областей использования вычислительной техники, истории систем управления данными во внешней памяти. Анализ разработки ряда стандартов в рамках языков описания и манипулирования данными. Обзор технологий по обмену данными между различными СУБД.
презентация [263,2 K], добавлен 30.05.2012Выполнение заданий на вычисление функции на указанном диапазоне и построение графика функции. Нахождение суммы числового ряда. Нахождение корней уравнения командой "Подбор параметра". Описание технологии работы со списками в электронной таблице Excel.
контрольная работа [35,3 K], добавлен 15.11.2010