Программные средства бизнес-аналитики
Построение нейронной сети. Оперативная аналитическая обработка данных (OLAP–технологии). Критерии соответствия технологии OLAP. Понятие хранилища данных. Место и роль интеллектуального анализа данных (Data Mining, DM) в процессе принятия решений.
Рубрика | Экономико-математическое моделирование |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 10.09.2017 |
Размер файла | 2,8 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Министерство образования и науки Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего образования
"Сочинский государственный университет"
Кафедра финансов, кредита и мировой экономики
Контрольная работа
по дисциплине «Программные средства бизнес-аналитики»
Выполнил: студентка гр.16-ЗМФиН
Федорова Е.И.
Проверил: Капырин А.С.
Сочи, 2017 г.
Содержание
Индивидуальное задание: построение нейронной сети
Ответы на индивидуальные вопросы
1. Оперативная аналитическая обработка данных (OLAP - технологии). Критерии соответствия технологии OLAP
2. Понятие хранилища данных. Хранилища данных и OLAP
3. Место и роль интеллектуального анализа данных (Data Mining, DM) в процессе принятия решений
Индивидуальное задание: построение нейронной сети
Построить нейронную сеть по данным дисконтированной по американской денежной массе цены на нефть и спрогнозировать изменение данного показателя на 12 месяцев.
Дисконтирование - это определение сегодняшней стоимости будущей денежной суммы (или если говорить более правильно, будущего денежного потока).
PV = FV * 1/(1+R)n,
R - ставка процента, N - число лет от даты в будущем
Рис. 1 Дисконтированная цена на нефть
На рисунке 1 представлена дисконтированная цена на нефть по денежной массе.
Для построения сети выберите топологию многослойного персептрона со следующим числом слоев и нейронов
Количество нейронов во входном слое 10
Количество скрытых слоев 9
Количество нейронов в скрытых слоях 10
Рассмотрим 2 варианта построения сети: не дисконтированная цена на нефть и дисконтированная цена на нефть.
Вариант 1.
Этап 1. На данном этапе происходила подготовка данных и загрузка их в программный комплекс. При решении задачи используем заданные статистические данные (отдельный файл). Для загрузки данных в программу необходимо запустить мастер импорта. Выбирая вид для отображения целесообразно выбрать не только табличные данные, но и диаграмму. В результате получен график цен на нефть представленный на рис. 2.
Рис. 2 Загрузка в программу текстовых данных
Этап 2. На втором этапе проводилась обработка данных и сглаживание их. Другими слова проводилась очистка данных. Она предполагает устранение нежелательных шумовых эффектов для получения качественных результатов наблюдений. Зашумленные данные могут значительно искажать оценочные процедуры. Кроме того, при очистке данных необходимо сравнивать поступающие значения с предполагаемым диапазоном изменений результатов наблюдений для того, чтобы отсечь выходящие за пределы диапазона выбросы.
Для очистки данных воспользуемся встроенным мастером обработки, где выберем мастер «парциальной обработки».
В указанном мастере выберем, подавление аномальных значений (на степени «малая») и подавление шума («малое») для переменной Publication Value. В результате указанных действий график цен приобретет новый вид. (Рис.3)
Рис.3 Диаграмма сглаживания цен с помощью мастера «парциальной обработки».
нейронный сеть интеллектуальный анализ
Этап 3. Трансформация данных при помощи скользящих окон.
Для выполнения данной операции также используем мастер обработки. Так как мы собираемся прогнозировать значения цены на основании 10 последних значений, установим глубину погружения - 9, а горизонт прогнозирования - 1. После трансформации данные будут выглядеть следующим образом - представлены на рисунках 4,5,6,7.
Рис.4 Трансформация данных при помощи скользящих окон. Определение глубины горизонта.
Рис.5 Трансформация данных при помощи скользящих окон.
Рис.6 Трансформация данных при помощи скользящих окон.
Рис.7 Трансформация данных при помощи скользящих окон.
Этап 4. Построение нейросети. На основе полученных трансформированных данных построим нейронную сеть. Сеть будет представлять собой многослойный прямонаправленный персептрон с 9 скрытыми слоями по 10 элементов. Для построения сети необходимо выбрать соответствующую функцию в мастере обработки, в качестве входных переменных выбрать значения цены на шаге -9, -8, -7, -6, -5, -4, -3, -2, -1, 0, а в качестве выходной переменной значение цены на шаге +1. Затем необходимо выбрать количество слоев (9) и число нейронов в них (10), остальные параметры оставить без изменения (Рис.8). После проведения процедуры обучения сети (Рис.9,10) можно приступать к прогнозированию (Рис. 11).
Рис.8 Определение структуры нейронной сети.
Рис.9 Обучение нейронной сети.
Рис.10 Построение нейросети.
Этап №5. Прогнозирование. На узле нейронной сети появляется в мастере обработки новый узел (прогноз), выбрав его и определив форму вывода прогноза (горизонт прогнозирования по условию задачи - 12 месяцев), можно получить диаграмму следующего вида (Рис.11).
Рис.11 Прогнозирование цены на нефть на 12 месяцев.
Вариант 2.
Этап 1. На данном этапе происходила подготовка данных и загрузка их в программный комплекс. При решении задачи используем заданные статистические данные (отдельный файл). Для загрузки данных в программу необходимо запустить мастер импорта. Выбирая вид для отображения целесообразно выбрать не только табличные данные, но и диаграмму. В результате получен график цен на нефть представленный на рис. 12.
Рис. 12 Загрузка в программу текстовых данных.
Этап 2. На втором этапе проводилась обработка данных и сглаживание их. Другими слова проводилась очистка данных. Она предполагает устранение нежелательных шумовых эффектов для получения качественных результатов наблюдений. Зашумленные данные могут значительно искажать оценочные процедуры. Кроме того, при очистке данных необходимо сравнивать поступающие значения с предполагаемым диапазоном изменений результатов наблюдений для того, чтобы отсечь выходящие за пределы диапазона выбросы.
Для очистки данных воспользуемся встроенным мастером обработки, где выберем мастер «парциальной обработки».
В указанном мастере выберем, подавление аномальных значений (на степени «малая») и подавление шума («малое») для переменной Publication Value. В результате указанных действий график цен приобретет новый вид. (Рис.13)
Рис.13 Диаграмма сглаживания цен с помощью мастера «парциальной обработки».
Этап 3. Трансформация данных при помощи скользящих окон.
Рис.14 Трансформация данных при помощи скользящих окон. Определение глубины горизонта.
Рис.15 Трансформация данных при помощи скользящих окон.
Рис.16 Трансформация данных при помощи скользящих окон.
Для выполнения данной операции также используем мастер обработки. Так как мы собираемся прогнозировать значения цены на основании 10 последних значений, установим глубину погружения - 9, а горизонт прогнозирования - 1. После трансформации данные будут выглядеть следующим образом - представлены на рисунках 14,15,16,17.
Рис.17 Трансформация данных при помощи скользящих окон.
Этап 4. Построение нейросети. На основе полученных трансформированных данных построим нейронную сеть. Сеть будет представлять собой многослойный прямонаправленный персептрон с 9 скрытыми слоями по 10 элементов. Для построения сети необходимо выбрать соответствующую функцию в мастере обработки, в качестве входных переменных выбрать значения цены на шаге -9, -8, -7, -6, -5, -4, -3, -2, -1, 0, а в качестве выходной переменной значение цены на шаге +1. Затем необходимо выбрать количество слоев (9) и число нейронов в них (10), остальные параметры оставить без изменения (Рис.18). После проведения процедуры обучения сети (Рис.19,20) можно приступать к прогнозированию (Рис. 21).
Рис.18 Определение структуры нейронной сети.
Рис.19 Обучение нейронной сети.
Рис.20 Построение нейросети.
Этап №5. Прогнозирование. На узле нейронной сети появляется в мастере обработки новый узел (прогноз), выбрав его и определив форму вывода прогноза (горизонт прогнозирования по условию задачи - 12 месяцев), можно получить диаграмму следующего вида (Рис.21).
Рис.21 Прогнозирование цены на нефть на 12 месяцев.
Ответы на индивидуальные вопросы
1. Оперативная аналитическая обработка данных (OLAP - технологии). Критерии соответствия технологии OLAP.
Расшифровка аббревиатуры OLAP звучит как online analytical processing. Дословный перевод этого словосочетания с английского языка - онлайновая аналитическая обработка данных. Однако англоязычное понятие онлайна несколько изменилось с тех времен, когда термин OLAP зазвучал в миру программистов и аналитиков впервые.
Итак, OLAP - это технология интерактивной обработки данных. Возможности технологии сосредоточены в её быстродействии, с которым OLAP анализирует сложные пользовательские запросы к хранилищу данных. Также, технология включает в себя возможность развертывания разнообразных отчетов и документов.
Продажи, маркетинг, управление, экономический анализ, аудит - нет такого направления работы, где технология OLAP была бы бесполезной.
В 1993 году Эдгар Кодд предложил 12 критериев соответствия приложения технологии OLAP. Немногим позже, критерии были сформированы в тест, получивший название FASMI.
Fast (Быстрый) - максимальная скорость доступа приложения OLAP к хранилищу данных. В среднем, время обработки запроса составляет 5 секунд. Конечно, для простых запросов срок ожидания может быть сокращен и до секунды, а для сложных - растянут до 20 секунд. Однако независимо от сложности обрабатываемого массива ожидание отклика от системы не должно превышать 30 секунд.
Analysis (Анализ) - возможность осуществления приложением OLAP числового и статистического анализа данных из базы. В соответствии с этим критерием продукт OLAP должен справляться с любой логикой, задаваемой пользователем или прикладной программой. В этот же критерий включена возможность графического представления результатов анализа, и гибкость к пользовательским запросам. В числе аналитических возможностей такие операции, как: анализ распределения ресурсов, анализ поиска цели, анализ изменений структуры, анализ транзакций, анализ последовательности временных диаграмм, и другие инструменты.
Shared (Разделяемый доступ) - приложение OLAP подразумевает одновременную работу с многомерными базами данных нескольких пользователей. Этот критерий OLAP накладывает свои ограничения, в частности - конфиденциальность информации. Это в свою очередь подразумевает использование механизмов авторизации пользователей и распределенные возможностей управления.
Multidimensional (Многомерность) - приложения OLAP должны состоять из многомерных информационных массивов. Так, любые данные в OLAP представляются в виде многомерной структуры. Следовательно, OLAP системы должны работать в многомерном пространстве и уметь оперировать развитыми иерархиями.
Information (Информация) - этот критерий предписывает приложениям OLAP обеспечивать пользователям возможность получать данные со всех электронных хранилищ информации. При этом приложения OLAP решают задачи предоставления данных, действительно имеющих ценность для пользователя, а не всех хранимых в базе.
Более полный список критерий представлен в таблице 1.
Табл. 1 Критерии соответствия технологии OLAP
1. |
Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View) |
4. |
Устойчивая производительность (Consistent Reporting Performance) |
7. |
Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling) |
10. |
Интуитивное манипулирование данными (Intuitive Data Manipulation) |
|
2. |
Прозрачность (Transparency) |
5. |
Клиент - серверная архитектура (Client-Server Architecture) |
8. |
Поддержка многопользовательского режима (Multi-User Support) |
11. |
Гибкий механизм генерации отчетов (Flexible Reporting) |
|
3. |
Доступность (Accessibility) |
6. |
Равноправие измерений (Generic Dimensionality) |
9. |
Неограниченная поддержка кроссмерных операций (Unrestricted Cross-dimensional Operations) |
12. |
Неограниченное количество измерений и уровней агрегации (Unlimited Dimensions and Aggregation Levels) |
Таким образом, подытоживая результаты критериев FASMI, дадим ещё одно определение OLAP-приложениям. OLAP приложения - это системы скоростного доступа множества пользователей к многомерному пространству аналитических данных, с предоставлением числовых и статистических анализов.
2. Понятие хранилища данных. Хранилища данных и OLAP
Ни для кого не секрет, что одним из основных факторов успеха в бизнесе и управлении является скорость и качество принимаемых решений. А вот в основе этих решений лежит имеющаяся информация. В эпоху глобальной компьютеризации информация получается из данных, которые хранятся в электронном виде в файлах различных форматов. Для эффективного хранения данных сегодня используются базы данных (БД), а точнее СУБД - системы управления базами данных. В составе любой базы данных имеются таблицы, между полями которой существуют связи (реляции, отношения). Отсюда и название «реляционные БД». Именно с их помощью можно структурировать информацию и обеспечивать быстрый и удобный доступ к ней.
Централизация и удобное структурирование данных - это далеко не все, что нужно аналитику. Традиционные отчеты, даже построенные на основе единого хранилища, лишены гибкости. Они не позволяют получать множество срезов и разрезов данных. Чем больше срезов и разрезов видит аналитик, тем больше у него идей. Для этих целей используется такой инструмент, как OLAP.
Термин «OLAP» неразрывно связан с термином «хранилище данных» (Data Warehouse). «Хранилище данных - это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений». Более просто: это база данных, хранящая данные, агрегированные по многим измерениям.
Не вдаваясь в сложную теорию определяющих принципов OLAP, сформулированных Е. Коддом - «изобретателем» реляционных БД, приведем следующее определение OLAP: Быстрый Анализ Разделяемой Многомерной Информации - FASMI (Fast Analysis of Shared Multidimensional Information).
Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал хранилище данных как «место, где люди могут получить доступ к своим данным».
Он же сформулировал и основные требования к хранилищам данных:
· поддержка высокой скорости получения данных из хранилища;
· поддержка внутренней непротиворечивости данных;
· возможность получения и сравнения так называемых срезов данных (slice and dice);
· наличие удобных утилит просмотра данных в хранилище;
· полнота и достоверность хранимых данных;
· поддержка качественного процесса пополнения данных.
Задача хранилища - предоставить «сырье» для анализа в одном месте и в простой, понятной структуре. Ральф Кимбалл в предисловии к своей книге «The Data Warehouse Toolkit» пишет, что если по прочтении всей книги читатель поймет только одну вещь, а именно: структура хранилища должна быть простой, - автор будет считать свою задачу выполненной.
Технология комплексного многомерного анализа данных получила название OLAP (On-Line Analytical Processing). OLAP -- это ключевой компонент организации хранилищ данных. Концепция OLAP была описана в 1993 году Эдгаром Коддом, известным исследователем баз данных и автором реляционной модели данных.
OLAP предоставляет пользователю быстродействующие средства доступа, просмотра и анализа бизнес-информации. OLAP (англ. online analytical processing, интерактивная аналитическая обработка) -- технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу.
3. Место и роль интеллектуального анализа данных (Data Mining, DM) в процессе принятия решений
Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining.
Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Data Mining (DM) -- это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса.
C помощью средств DM менеджер по маркетингу может предлагать клиентам индивидуальные котировки акций, обновлять новости, проводить специальные кампании по продвижению и передавать другую индивидуальную информацию, которая может их заинтересовать. При этом существенно сокращаются средства на рекламу и повышаются доходы. Кроме того, процесс полностью автоматизирован, ПО моментально обнаруживает любые изменения в поведении клиента, в отличие от специальных сервисов, представленных на сегодняшний день в Web, которые требуют от людей заполнения различных опросных листов и анкет.
Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно -- сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными.
В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро -- один из основателей этого направления: Data Mining -- это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.
Например в розничной торговле.
Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:
· анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.
· исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?»
· создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.
Банковское дело
Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:
· выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.
· сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.
· прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов, и соответствующим образом обслуживать каждую категорию.
Телекоммуникации
В области телекоммуникаций методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:
· анализ записей о подробных характеристиках вызовов. Назначение такого анализа -- выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг;
· выявление лояльности клиентов. Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.
Страхование
Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:
· выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.
· анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.
Другие приложения в бизнесе
Data Mining может применяться во множестве других областей:
· развитие автомобильной промышленности. При сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе;
· политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок;
· поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которых данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она, таким образом, изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.
Размещено на Allbest.ru
Подобные документы
Разработка и принятие правильного решения как задачи работы управленческого персонала организации. Деревья решений - один из методов автоматического анализа данных, преимущества их использования и область применения. Построение деревьев классификации.
контрольная работа [91,6 K], добавлен 08.09.2011Изучение методов моделирования и анализа панельных данных. Построение ABC-XYZ классификации среди данных широкой номенклатуры по товарным запасам торгового предприятия. Виды исходных данных и построение на их основе модели регрессии по панельным данным.
курсовая работа [363,2 K], добавлен 23.02.2015Теория игр в контексте теории принятия решений. Игры без седловых точек. Использование линейной оптимизации при решении матричных игр. Критерии, используемые для принятия решений в играх с природой. Решение парных матричных игр с нулевой суммой.
контрольная работа [437,2 K], добавлен 14.02.2011Основные задачи статистики предприятия, населения, инвестиций. Способы, формы и виды статистического наблюдения. Сводка и группировка статистических данных. Структурная и аналитическая группировка данных. Абсолютные, относительные и средние величины.
контрольная работа [262,6 K], добавлен 07.03.2011Построение схемы сети. Расчет интенсивностей входных потоков для каждой СМО. Проверка стационарности сети. Модель сети на языке моделирования GPSS. Сравнение расчетных и экспериментальных данных по критерию Стьюдента. Проверка адекватности модели.
контрольная работа [94,6 K], добавлен 28.07.2013Типологическая, структурная, аналитическая группировка данных. Определение моды и медианы распределения. Зависимость прибыли от развития компании. График, отражающий изменение прибыли фирмы. Особенности группировки данных по системе варьирующих признаков.
контрольная работа [959,9 K], добавлен 12.02.2012История возникновения и развития нейронной сети, ее значение и применение. Реализация приложения, позволяющего определить фигуры изображенные пользователем на панели приложения. Создание однослойной нейронной сети (персептрон) с возможностью её обучения.
курсовая работа [860,1 K], добавлен 13.07.2012Теория статистических решений как поиск оптимального недетерминированного поведения в условиях неопределенности. Критерии принятия решений Лапласа, минимаксный, Сэвиджа, Гурвица и различия между ними. Математические средства описания неопределенностей.
контрольная работа [66,0 K], добавлен 25.03.2009Разработка и исследование эконометрических методов с учетом специфики экономических данных и в соответствии с потребностями экономической науки и практики. Применение эконометрических методов и моделей для статистического анализа экономических данных.
реферат [43,1 K], добавлен 10.01.2009Обоснование целесообразности применения статистических данных в анализе устойчивого развития региона. Сбор, обработка статистических данных по основным секторам Кемеровской области. Оценка их полноты и качества. Принципы построения математической модели.
дипломная работа [2,6 M], добавлен 30.05.2013