Создание модели хранилища данных

Построение аналитической системы на базе многомерного хранилища данных для анализа проблем и прогнозирования развития авиатранспортной системы в России. Применение инструментов интеллектуального анализа и моделей data mining на основе хранилища данных.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 07.03.2016
Размер файла 1,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Заключение

В проделанной работе были продемонстрированы навыки владения основными понятиями и методами, связанными с концепцией хранилищ данных (ETL, BI, data mining). Также было показано умение собирать данные и моделировать данные на основе реальной информации. При анализе данных было отмечено, что смоделированные данные в целом отражают реальные события, произошедшие в экономике России (например, кризис 2008 года).

В работе был решен ряд задач и были найдены ответы на ряд важных вопросов, касающихся авиатранспортной отрасли России, например:

· Какую долю в общем авиатранспортном потоке по стране занимает трафик через московский транспортный узел? Какая динамика изменения этой доли прослеживается в период с 2005 по 2012 год?

· В каком направлении и какими темпами будет развиваться авиатранспортная отрасль России в разрезе объемов авиаперевозок?

· Как можно оптимизировать авиатранспортную сеть России? Какие аэропорты необходимо развивать, чтобы разгрузить московский транспортный узел, тем самым уменьшив степень централизации авиатранспортной системы страны?

Результаты реализации средств интеллектуального анализа данных, которые одновременно являются ответами на приведенные выше вопросы, следующие:

· Во вводной части работы был выполнен комплексный обзор проблемы, из которого видно, что авиатранспортная система России представляет собой централизованную несбалансированную структуру с центром в московском транспортном узле. Разработанная система анализа позволяет уточнить конкретную долю московского региона в общем объеме перевозок по стране во временном разрезе. В третьей главе на рисунке 19 представлена динамика изменения данного показателя. В среднем, в период с 2005 года по 2012 год доля московского транспортного узла, судя по смоделированным данным, выросла с 20,9% до 22,1%. Этот результат говорит о том, что авиатранспортная система стала ещё более централизованной и несбалансированной за указанный период.

· Динамика развития авиатранспортных потоков -- это очень актуальный вопрос, которому посвящены многие коммерческие и государственные исследования. По прогнозам можно заранее определить вектор последующего развития отрасли. В данной работе стояла задача спрогнозировать объемы авиаперевозок до 2020 года. Для прогнозирования объемов авиаперевозок использовалась модель data mining, которая предсказала 4-х кратный рост данного показателя к 2020 году относительно 2005 года.

· Оптимизация авиатранспортной сети России -- это очень важный вопрос, который рассматривают как государственные органы и коммерческие организации, так и академическая среда. Реструктуризация отрасли может в лучшую сторону повлиять на более сбалансированное экономическое развитие российских регионов. Одним из вариантов реструктуризации структуры аэропортовой сети является создание нескольких транспортных узлов (хабов), которые будут равномерно расположены по территории всей страны. Эти узлы помогли бы снять большую часть нагрузки с московского транспортного узла, а также развитие этих узлов повлекло бы за собой развитие регионов, в которых эти узлы находятся. Разработанная система анализа с помощью алгоритма кластеризации выделила 6 регионов, которые потенциально предрасположены к развитию на них транспортных хабов. Результаты, полученные на этом этапе, представлены в таблице 9 и на иллюстрации 22.

В итоге можно утверждать, что основная цель работы, а именно: построение хранилища данных для анализа авиаперевозок на территории России, - достигнута. Применение разработанного инструмента показало корректные и адекватные результаты, по которым возможно сделать прогнозы и выдвинуть некоторые предложения по развитию структуры авиатранспортной системы России. Но, нельзя также забывать, что система была применена к модельным данным. То есть полученные выводы содержат только лишь верное направление. Применение инструмента к реальным данным показало бы более точные и правдоподобные результаты, которые могли бы реально быть использованы на практике.

Также нужно отметить, что система разработана с возможностью дальнейшего развития функциональности. Данные могут быть рассмотрены в двух дополнительных разрезах (что не было сделано в данной работе), а именно: в разрезе авиакомпаний и в разрезе видов авиаперевозок (пассажирские, грузовые, почтовые). Это позволит более детально проанализировать авиатранспортную отрасль для решения некоторых аналитических задач, отличных от задач, решаемых в данной работе.

Список использованной литературы

1. Ralph Kimball (1996). The Data Warehouse Toolkit.

2. Bill Inmon (1992). Building the Data Warehouse. 1st Edition.

3. C. Кэмерон (2009). Аналитические службы СУБД Microsoft SQL Server 2008 шаг за шагом.

4. М. Грабер (1993). Понимание SQL.

5. A. S. Pulvirenti, M. C. Roldбn (2011). Pentaho Data Integration 4 Cookbook

6. Диго С. М. (2008) Базы данных. Проектирование и создание. Учебно-методический комплекс, Москва: Изд. Центр ЕАОИ

7. Герасимов Н. А. (2012) Разработка диалоговой процедуры анализа данных в системе принятия оперативных решений. В кн.: Сборник научных трудов SWorld.Материалы международной научно-практической конференции: Перспективные инновации в науке, образовании, производстве и транспорте 2012 / Под общ. ред.: А. Г. Шибаев. Т. 4: Технические науки. Вып. 2. Одесса: Куприенко С.В., С. 100 -110.

8. Герасимов Н. А. (2007) Практикум по языку SQL в среде СУБД Access. Москва: Российская экономическая академия имени Г.В.Плеханова

9. А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод (2004). Методы и модели анализа данных: OLAP и Data Mining, С-П: БХВ-Петербург

10. Р. Ф. Дружаева, Е. И. Меркулова (2012). Бизнес-модель развития грузовых авиаперевозок в Российской Федерации, Наука и транспорт. Гражданская авиация, №1, 20-22

11. А. Карпов (2011). «Некоторые аспекты региональных авиаперевозок», доклад на Международном Авиатранспортном Форуме в Ульяновске

12. МинТранс Рф (2012). проект «Дорожной карты»

13. Федоров А., Елманова Н. (2002). Введение в OLAP - технологии Microsoft. М.: Диалог МИФИ.

Приложение 1

SQL описание для генерации таблиц для хранилища данных

Dim_date

create table dim_date(

date_id int primary key,

date_date datetime not null,

date_year int,

date_quater int

);

Dim_place

create table dim_place(

place_id int primary key,

place_fed_distinct varchar(50),

place_region varchar(50),

place_center varchar(50)

);

Dim_direction

create table dim_direction(

direction_id int primary key,

direction_title varchar(15),

direction_desc varchar(100)

);

Dim_transportation_type

create table dim_transportation_type(

tr_type_id int primary key,

tr_type_title varchar(30),

tr_units varchar(20)

);

Dim_company

create table dim_company(

company_id int primary key,

company_title_rus varchar(50),

company_title_eng varchar(50),

company_web_site varchar(50)

);

FactTransportation

create table fact_transportation(

trans_id int primary key,

date_id int Foreign key references dim_date(date_id),

place_id int Foreign key references dim_place(place_id),

direction_id int Foreign key references dim_direction(direction_id),

tr_type_id int Foreign key references dim_transportation_type(tr_type_id),

company_id int Foreign key references dim_company(company_id),

value real not null

);

Приложение 2

Инструкция по установке продукта Pentaho Data Integration

PDI является мощным и в тоже время простым в использовании многофункциональным продуктом для интеграции данных. К тому же данная система имеет open source версию (Kettle), которая сходна по функционалу с коммерческой версией.

Функционал продукта позволяет:

· переносить данные между пользовательскими приложениями;

· экспортировать данные из баз данных в плоские файлы;

· производить массовую загрузку данных в базу данных;

· производить очистку данных;

· интегрировать приложения.

PDI состоит из следующих компонентов:

1. Spoon - графический инструмент для создания и тестирования разрабатываемых процессов (в том числе ETL);

2. Pan - инструмент, позволяющий инициализировать разработанные в Spoon трансформации (transformations) из терминального окна;

3. Kitchen - инструмент, позволяющий инициализировать разработанные в Spoon задания (jobs) из терминального окна;

Скачать PDI можно по ссылке:

http://sourceforge.net/projects/pentaho/files/Data%20Integration/.

После скачивания архива, необходимо распаковать его в любой каталог по выбору, например, в каталог “C:\Program Files”.

PDI работает со средой Sun Java Runtime Environment (JRE) версии 1.5 (иногда называемой 5.0) или более новой. Её можно загрузить с сайта www.oracle.com. Также необходимо отметить, что перед запуском PDI нужно добавить путь к установленной JRE в переменную среды Path. Переменные среды редактируются в панели управления по следующему пути: Панель управления\Все элементы панели управления\Система\Дополнительные параметры системы ->> Вкладка «Дополнительно». На рисунке ниже показан пример заполнения данной переменной.

Важно отметить, что путь к JRE добавляется в конец значения переменной.

Теперь можно запускать Spoon. Для этого необходимо открыть файл spoon.bat, находящийся в папке PDI\data-integration.

Если запуск удался, то система готова к работе.

Дополнительные сведения и простой вводный пример по использованию PDI можно посмотреть по ссылке http://wiki.pentaho.com/display/EAI/02.+Spoon+Introduction.

Размещено на Allbest.ur


Подобные документы

  • Построение схемы хранилища данных торгового предприятия. Описания схем отношений хранилища. Отображение информации о товаре. Создание OLAP-куба для дальнейшего анализа информации. Разработка запросов, позволяющих оценить эффективность работы супермаркета.

    контрольная работа [1,9 M], добавлен 19.12.2015

  • Методы построения хранилища данных на основе информационной системы реального коммерческого предприятия. Основные аналитические задачи, для решения которых планируется внедрение хранилищ данных. Загрузка процессоров на серверах. Схемы хранения данных.

    контрольная работа [401,0 K], добавлен 31.05.2013

  • OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".

    презентация [132,1 K], добавлен 19.08.2013

  • Архитектура и технология функционирования системы. Извлечение, преобразование и загрузка данных. Oracle Database для реализации хранилища данных. Создание структуры хранилища. Механизм работы системы с точки зрения пользователя и с точки зрения платформы.

    курсовая работа [2,2 M], добавлен 22.02.2013

  • Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа [728,4 K], добавлен 10.07.2017

  • Разработка программного обеспечения для анализа полученных из хранилища данных. Система SAS Enterprise Miner и система Weka. Расчёт капитальных затрат на создание ПМК для анализа полученных из хранилища данных с использованием библиотеки XELOPES.

    дипломная работа [1,4 M], добавлен 07.06.2012

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Файловая организация баз данных. Взаимодействие администратора баз данных с пользователями. Иерархическая и сетевая даталогические модели системы управления базами данных. Принципиальная организация системы обработки информации на основе БД-технологии.

    реферат [762,0 K], добавлен 23.12.2015

  • Понятие и структура хранилища данных, его составные элементы и назначение. Технологии управления информацией. Методика создания базы данных и составления ее схемы, пользовательские формы, структура и содержание таблиц. Программная реализация базы данных.

    дипломная работа [1,4 M], добавлен 13.04.2010

  • Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

    контрольная работа [565,6 K], добавлен 02.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.