Аналітичне дослідження показників видобутку біоресурсів Україною
Розгляд неохідності застосування деяких операцій інтелектуального аналізу, таких як: кластеризація, прогнозування, візуалізація, аналіз та пошук відхилень. Вивчення параметрів імпорту файла з розмежуваннями. Аналіз системного середовища Deductor.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | украинский |
Дата добавления | 21.10.2017 |
Размер файла | 1,8 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Зміст
Вступ
1. Постановка задачі
2. Теоретичні відомості
3. Імпорт даних, оцінка якості, відновлення, корекція і очистка даних
4. Дослідження видобутку біоресурсів Україною із застосуванням методів аналітичної обробки даних
4.1 Кореляційний аналіз
4.2 Побудова нейромережі
5. Візуалізація результатів
5.1 Побудова Карти Кохонена
5.2 Побудова OLAP-кубу
Вступ
Аналітичне дослідження показників видобутку біоресурсів Україною здійснюється за допомогою відкритих даних Державної служби статистики України.
Державна служба статистики України (Держкомстат України) -- центральний орган виконавчої влади із спеціальним статусом, діяльність якого спрямовується і координується Кабінетом Міністрів України через віце-прем'єр-міністра України.
Держкомстат України забезпечує проведення в життя державної політики в галузі статистики, створення і належне функціонування загальнодержавної системи економіко-статистичної інформації на території України. Є спеціально уповноваженим центральним органом виконавчої влади у галузі статистики.
Для отримання певних висновків із статистики, наданої Держкомстатом України, використовується методи статистичної обробки та інтелектуального аналізу даних. Особливе значення, серед цих методів, у обрахунках має використання OLAP-систем.
OLAP (англ. online analytical processing, аналітична обробка в реальному часі) -- це технологія обробки інформації, що дозволяє швидко отримувати відповіді на багатовимірні аналітичні запити. OLAP є частиною такого ширшого поняття, як бізнес-аналітика, що також включає такі дисципліни як реляційна звітність та добування данних (спосіб аналізу інформації в базі даних з метою відшукання аномалій та трендів без з'ясування смислового значення записів). Служить для підготовки бізнес-звітів з продажів, маркетингу, для потреб управління, для прогнозування, фінансової звітності та в схожих областях.
Бази даних, сконфігуровані для OLAP, використовують багатовимірні моделі даних, що дозволяє виконувати складні аналітичні та спеціалізовані запити за короткий проміжок часу. Вони запозичують окремі аспекти навігаційних та ієрархічних баз даних, які є швидшими за реляційні БД.
OLAP дає змогу організувати вимірювання у вигляді ієрархії. Дані представлені у вигляді гіперкубів (кубів) - логічних і фізичних моделей показників, що спільно використовують вимірювання, а також ієрархії у цих вимірюваннях. Деякі дані заздалегідь агреговані в БД, інші розраховуються відразу.
OLAP-куб містить базові дані та інформацію про вимірювання (агрегати). Куб потенційно містить всю інформацію, потрібну для відповідей на будь-які запити.
Засоби OLAP дають змогу досліджувати дані за різними вимірюваннями. Користувачі можуть вибирати, які показники аналізувати, які вимірювання і як відображати в крос-таб-лиці, поміняти рядки і стовпці pivoting, потім робити зрізи, щоб концентруватися на певній комбінації розмірностей. Можна змінювати деталізацію даних, рухаючись рівнями за допомогою деталізації та збільшення, а також крос-деталізацію через інші вимірювання.
Мета курсової роботи полягає в аналітичній обробці слабко структурованого набору фінансових даних та виявлення об`активних закономірностей у цьому наборі даних. Також метою роботи є показати застосування деяких операцій інтелектуального аналізу, таких як: кластеризація, прогнозування, візуалізація, аналіз та пошук відхилень, заповнення пропуску даних, підведення підсумків та аналіз отриманих результатів.
Виконання роботи передбачає використання системи аналітичної обробки даних Deductor.
1. Постановка задачі
В даній роботі будуть використовуватись дані видобутку Україною біоресурсів, які взяті з 1 січня 1995 по 2013 років. Статистична таблиця міститиме такі заголовки і відповідні їм дані:
- Рік;
- Всього видобуто
- У внутрішніх водоймах;
- У виключній(морській) економічній зоні України;
- У виключних(морських) економічних зонах інших держав;
- У відкритій частині світового океану.
Для дослідження нашої статистичної вибірки та отримання з неї інформації на потрібно:
- Імпортувати дані;
- Побудувати діаграму;
- Виконати кореляційний аналіз;
- Регресійний аналіз(лінійна регресія);
- Діаграму розсіювання;
- Звіт по регресії;
- Побудувати OLAP-куб;
- Транспонтування;
- Операцію групування;
- Побудувати карту Кахонена.
2. Теоретичні відомості
Розглянемо основні відомості про системне середовище Deductor, а також про його основні властивості.
Deductor - аналітична платформа, яка дозволяє в короткі терміни створити ефективну систему підтримки прийняття бізнес-рішень.
Deductor є повнофункціональною платформою для вирішення завдань Knowledge Discovery in Databases, що дозволяє провести всі нижчеописані кроки.
1. Підготовка початкового набору даних. До складу системи входить Deductor Warehouse - багатовимірне сховище даних, що орієнтоване на рішення задач консолідації інформації з різнорідних джерел і швидкого видобутку потрібного набору даних. Deductor Warehouse підтримує потужний семантичний прошарок, що дозволяє кінцевому користувачеві оперувати бізнес термінами для отримання потрібних даних. Окрім власного сховища Deductor підтримує роботу і з іншими джерелами: Oracle, DB2, MS SQL, Informix, Sybase, Interbase, DBase, FoxPro, Paradox, MS Access, CSV (текстові файли з роздільниками), ODBC, ADO. Для забезпечення максимальної швидкодії Deductor підтримує прямий (direct) доступ до більшості найпопулярніших баз даних.
2. Передобробка. Deductor містить великий набір механізмів передобробки і очищення даних: заповнення пропусків, редагування аномалій, очищення від шумів, згладжування, фільтрація і багато чого іншого з можливістю комбінування методів передобробки.
3. Трансформація, нормалізація даних. Deductor містить великий набір механізмів трансформації даних, що дозволяють провести всю підготовчу роботу для подальшого аналізу. Окрім цього, система містить широкий спектр механізмів нормалізації для всіх типів даних: числових, рядкових, дата/час і логічних.
4. Data Mining. У складі пакету містяться алгоритми, що реалізують популярні та ефективні методи Data Mining: нейронні мережі, дерева рішень, самоорганізованікарти Кохонена, асоціативні правила тощо.
5. Постобробка даних. Результати будь-якої обробки можуть бути відображені за допомогою великого набору механізмів візуалізації: OLAP, таблиці, діаграми, дерева тощо. Для деяких механізмів передбачені спеціалізовані візуалізатори, які забезпечують легкість інтерпретації результатів. Результати можна експортувати для подальшої обробки за допомогою інших додатків. Це дає можливість ефективно використовувати отримані знання або моделі на інших даних.
Deductor задовольняє всі вимоги для успішної взаємодії з експертом (аналітиком): кластеризація файл deductor
· єдина платформа, в якій можна пройти всі етапи Knowledge Discovery in Databases;
· всі операції проводяться за допомогою майстрів, завдяки яким знижуються вимоги до знання експертом математичного апарату;
· можливість довільного комбінування будь-яких методів обробки;
· великий набір методів візуалізації отриманих результатів;
· пакетне виконання всій дій по обробці даних.
Склад системи Deductor:
· Studio - программа, яка реалізує функції імпорту, обробки, візуалізації и експорту даних;
· Viewer - робоче місце кінцевого користувача. Дозволяє відділити процес побудови сценаріїв від користування уже готовими моделями;
· Warehouse - багатомірне сховище даних, яке акумулює всю необхідну для аналізу предметної області інформацію;
· Server - служба, яка забезпечує віддалену аналітичну обробку даних;
· Client - клієнт доступу до Deductor Server. Він забезпечує доступ до сервера із сторонніх додатків і управління його роботою.
Версії Deductor:
1. Enterprise - призначена для корпоративного використання. В ній реалізовані всі функції, що і у версії Professional. Крім того, в поставку даної версії входять Deductor Server і Deductor Client для віддаленої роботи з системою, підтримка сховищ даних на платформах Oracle і MS SQL, підтримка концепції віртуального сховища даних, реалізація OLE-сервера і інші механізми, які необхідні для корпоративного використання аналітичної платформи.
2. Professional - призначена для невеликих компаній і однокористувацької роботи. В цій версії відсутні обмеження на кількість оброблювальних записів, підтримується робота з великою кількістю джерел, сховищем даних на базі бесплатної СУБД Firebird, пакетне виконання сценаріїв, всі механізми обробки і візуалізації даних.
3. Academic - бесплатна версія, яка призначена тільки для навчальних цілей. Використання цієї версії у комерційних цілях заборонено. В ній обмежені можливості інтеграції і автоматичної обробки. Підтримується лише 2 джерела і приймача даних: Deductor Warehouse и текстові файли с роздільниками.
Задачі, що виішує Deductor:
· прогнозування;
· стимулювання попиту;
· сегментація клієнтів;
· оптимізація цінової політики;
· аналітична звітність;
· управління ризиками при кредитуванні фізичних и юридичних осіб;
· оцінка кредитоспроможності;
· визначення профіля клієнтів і особливостей їх поведінки;
· виявлення випадків махінацій.
В даних теоретичних відомостях також коротко розповімо про використання OLAP-кубу.
OLAP-куб -- структура, яка дозволяє здійснювати швидкий аналіз даних. Також може бути визначена як здатність до маніпулювання і аналізу даних з різних перспектив. Впорядкування даних у куби долає обмеження реляційних баз даних. Такі бази даних не дуже добре пристосовані для майже миттєвого аналізу та відображення великих обсягів даних. Навпаки, вони відповідають вимогам створення записів через серії транзакцій OLTP. Хоча існує багато інструментів створення звітів для реляційних баз даних, вони надто повільні, коли має бути оброблена ціла база даних.
OLAP-куби можна розглядати як розширення двовимірних масивів електронних таблиць. Наприклад, компанія може забажати проаналізувати деякі фінансові дані за продуктами, за періодами, за місцем продажу, за типом прибутку та ціною, і порівняти фактичні дані з бюджетом. Це і називається вимірами. Оскільки OLAP система може мати більше трьох вимірів, іноді використовують термін гіперкуб.
OLAP-куб складається з числових фактів, що називаються мірами які категоризовані за вимірами. Куб може бут створеним зі схеми зірки або схеми сніжинки, схеми таблиць в реляційній базі даних. Міри походять із записів в таблиці фактів, а виміри походять з таблиці вимірів.
Фінансовий аналітик хоче бачити дані в різних проекціях, наприклад, відобразити всі міста уздовж сторінки, а всі продукти впоперек. Це може бути потрібно для визначенного періоду, версії і т.д.. Після перегляду цих даних аналітик може забажати переглянути дані іншим чином. Куб може бути ефективно переорієнтований, таким чином отримання нових типів звітів не вимагає багато часу, скажімо, секунди (у порівнянні з годинами у випадку реляційних баз даних).
Кожен елемент виміру може бути верхівкою ієрархії.
Наприклад, січень 2010 може бути об'єднаний у першу чверть 2010, яка може бути об'єднана в 2010 рік. Схожим чином міста можуть бути об'єднані в регіони, країни в глобальні регіони, товари можуть бути об'єднані в більші категорії. Аналітик може почати з вищого рівню ієрархії, такого як загальна різниця між витратами і бюджетом, а потім заглиблюватися в нижчі рівні для визначення походження цієї різниці.
Зріз (англ. slice): формується підмножина багатовимірного масиву даних, що відповідає єдиному значенню одного або декількох вимірів, що не входять до цієї підмножини. Якщо розглядати з позиції кінцевого користувача, то найчастіше роль зрізу відіграє двовимірна проекція OLAP-куба.
Нарізка на кубики (англ. dice): зріз більше ніж за двома вимірами куба.
Консолідація (англ. drill up) та деталізація (англ. drill down): операції, що визначають перехід від детального представлення даних до агрегованого (вгору) і навпаки -- від агрегованого до детального (вниз).
Обертання, півотинг (англ. pivot): Перетворення стовпців таблиці на рядки і навпаки.
Комерційні OLAP продукти мають різні методи для створення і для зв'язування кубів.
Зв'язування -- метод для подолання розрідженості. Розрідженість виникає коли не кожна комірка в кубі містить дані, тким чином цінний процесорний час витрачається на складання нулів.
OLAP-куб -- багатовимірний масив даних, як правило, розріджений і призначений для тривалого зберіганя. Може бути реалізований на основі універсальних реляційних СУБД або спеціалізованим програмним забезпеченням.
Індексам масиву відповідають виміри (dimensions) або осі куба, а значенням елементів масиву -- міри (measures) куба.
w : (x,y,z) > wxyz,
де x, y, z -- виміри, w -- міра.
На відміну від звичайного масиву в мові програмування, доступ до елементів OLAP-куба може здійснюватися як за повним набором індексів-вимірів, так і за їх підмножиною, і тоді результатом буде не один елемент, а множина елементів.
W : (x,y) > W = {wz1, wz2, …, wzn}
Також відомий опис OLAP-куба із використанням термінології реляційної алгебри -- проекції відношень.
Нехай маємо відношення N, розглянемо проекцію з вимірами X, Y, і Z як ключем і W як різницевим атрибутом. Це характеризується функцією:
W : (X,Y,Z) > W,
атрибутам (X, Y, и Z) відповідають вісі куба, а значення W для кожної можливої трійки ((X, Y, Z)) відповідають даним кожної комірки куба.
Оскільки двовимірні пристрої виводу не можуть адресувати чотирі виміри, практичнішим є проеціювання «зрізів» куба (проеціювання застосовується в сенсі зменшення кількості вимірів -- від куба або гіперкуба до матриці), можливе у вигляді
W : (X,Y) > W
У цій проекції відсутній первинний ключ. Таким чином можлива деяка багатозначність функції. Тим не менш, зріз трійкового функціонального представленя з визначеним значенням Z має дуже велике значення.
3. Імпорт даних, оцінка якості, відновлення, корекція і очистка даних
Для імпортування даних у систему ми використовуємо Майстер імпорту. Особливістю Deductor Academic є те, що дані можливо завантажити лише з текстового фалу.
Рис.1 Вхідні дані у форматі Microsoft Exel
Тому для подальшої роботи з вибіркою створюємо текстовий файл за допомогою Блокнот.
Рис.2 Вхідні дані у форматі .txt
Далі запускаємо Майстер імпорту і вказуємо подальші параметри імпортування, а саме:
- Формат вихідних даних;
- Парамаетри імпорту файла з розмежуваннями;
- Визначення призначення величин, тип даних, їх форма;
Рис.3 Майстер імпорту
Рис.4 Зображення даних
Рис.5 Параметри імпорту
Рис.6 Визначення призначення величин (вхідні\ вихідні\ інформаційні), тип даних (дата, ціле число, строка, тощо), їх форма (дискретна, неперервна)
Рис.7 Фрагмент зображення даних
Рис.8 Статистика
Для цього набору даних також було використано візуалізацію як одну із задач аналізу даних. На наступному рисунку було показано параметри відображення для нашої вибірки:
Рис.9 Параметри візуалізації
Рис.10 Показники, які відображаються на діаграмі
Рис.11 Показники, які відображаються на графіку
На рис.12 показано отриманий графік обсягів видобування біоресурсів для різних видів видобутку, взалежності від року видобування. Цей графік демонстує обсяг видубутку біоресурсів (відносний спад):
Рис.12
Ми бачимо тенденцію зміни об`ємів видобутку. Проте дані, які показують об`єми видобутку біоресурсів Україною у світовому океані задані не повністю і існує декілька пропусків значень в таблиці. Тому, щоб проводити подальший аналіз та згладити проміжки ми використаємо вбудований інструмент Deductur- «Заповнення пропущених даних».
Спосіб заповнення даних був взятий «Найбільш вірогідний»:
Рис.13 Заповнення даних
Рис.14 Фрагмент відновлених даних
Рис.15 Графік видобутку за відновленими даними
Ми отримали відновлені дані і тепер потрібно провести оцінку їх якості. Це робиться за допомогою вбудованого інструмента «Оцінка якості даних».
Рис.16 Оцінка якості даних
Рис.17 Результат оцінки якості
Як ми бачимо на рис.17 зараз не усі дані відповідають оцінці якості, якість даних нас не влаштовують і тому ми маємо коригувати їх за допомогою функції «Редагування викидів».
Рис.18 Редагування викидів
Рис.19 Фрагмент відредагованих даних
Після від редагування викидів знову проводимо оцінку даних для подальшої роботи з ними:
Рис.20 Результат оцінки якості, після редагування викидів
Як ми бачимо на рис.20 зараз усі дані відповідають оцінці якості, якість даних нас повністю влаштовують і ми можемо проводити досдження.
4. Дослідження видобутку біоресурсів Україною із застосуванням методів аналітичної обробки даних
4.1 Кореляційний аналіз
За допомогою кореляційного аналізу дізнаймося від чого найбільше залежить загальна кількість видобутих біоресурсів:
Рис.21 Вибір даних для кореляційного аналізу
Рис.22 Вибір значущих факторів
Рис.23 Кореляційна залежність
Як ми можемо побачити значним впливом на загальну кількість біоресурсів являє собою видобуток «У виключних (морських) економічних зонах інших держав». Також можна зазначити, що найменший вплив має видобуток біоресурсів у Світовому океані.
4.2 Побудова нейромережі
Використовуючи нейромережеві алгоритми можна побудувати шукану залежність між цими параметрами. Це завдання виконано за процедурою Майстра обробки «Нейросеть».
Рис.24 Вхідні поля для аналізу з використанням нейромережі
Рис.25 Вибір навчальної\тестової підмножини
Рис.26 Процес навчання нейромережі
Рис.27 Багатофакторна нейромережева модель
На рисунку 27 ми можемо спостерігати нейромережеву модель, яка містить в собі інформацію про взаємовплив наших даних.
5. Візуалізація результатів
5.1 Побудова Карти Кохонена
Карти Кохонена - використовуються для вирішення таких завдань, як пошук закономірностей у великих масивах даних, виявлення наборів незалежних ознак і стиснення інформації.
Побудуємо залежність видобутку біоресурсів у внутрішніх водоймах до видобутку у Світовому океані та у економічних зонах інших держав.
Рис.28 Вибір полів для побудови карти Кохонена
Рис.29 Фрагмент карти Кохонена
За допомогою Карти кохонена і вказівника миші ми можемо дізнатися вплив кожного фактору на результуючі поля.
5.2 Побудова OLAP-кубу
Зважаючи на те, що ми маємо відносно не велику вибірку даних, OLAP-куб дасть мало інформації, але все-таки спробуємо отримати хоч щось.
Побудова OLAP-кубу здійснювалась за допомогою Майстра візуалізації:
Рис.30 Налаштування полів куба
Рис.31 Налаштування вимірів куба
Рис.32 Вибір фактів
Рис.33 Побудований OLAP-куб для набору даних
Як і було вище сказано, OLAP-куб бажає бути кращим, також до недоліків Deductor Academic можна віднести те, що він не дозволяє проводити експорт даних у більш наглядний формат.
Размещено на Allbest.ru
Подобные документы
Короткі теоретичні відомості про Deductor – аналітичну платформу, призначену для створення логічно завершених прикладних рішень в області аналізу даних. Основи роботи з аналітичною платформою Deductor виробництва російської компанії BaseGroup Labs.
лабораторная работа [1,4 M], добавлен 14.10.2014Визначення множини вхідних та вихідних лінгвістичних змінних нечіткої системи керування змішувачем. Аналіз побудови системи нечіткого виведення, розгляд його етапів, аналіз наукового та технічного застосування. Аналітичне рішення тестового прикладу.
курсовая работа [412,6 K], добавлен 17.05.2012Системний аналіз. Розширена вхідна і вихідна функції мережі Петрі. Зображення граф мережі Петрі, дерева досяжності глибини 3. Написання програми, яка повинна шукати розширену вхідну і вихідну функції за вхідними даними і будувати дерево досяжності.
контрольная работа [233,3 K], добавлен 14.03.2010Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.
статья [525,8 K], добавлен 19.09.2017Дослідження методів криптографічного аналізу. Властивості гарної статистики. Технічні та програмні засоби. Алгоритм програми криптографічного аналізу. Модель статичного кріптоаналізу. Аналіз зашифрованого тексту. Рекомендації щодо використання програми.
курсовая работа [1,5 M], добавлен 05.12.2012Основні положення системного аналізу, його використання. Характеристика та основні ознаки складних систем. Використання теорії графів для структурного аналізу. Графова потокова модель технологічного комплексу. Виділення внутрішніх комплексів в ТК.
курсовая работа [88,3 K], добавлен 01.06.2010Описание платформы Deductor, ее назначение. Организационная структура аналитической платформы Deductor, состав модулей. Принципы работы программы, импорт и экспорт данных. Визуализация информации, сценарная последовательность и мастер обработки.
курсовая работа [3,7 M], добавлен 19.04.2014Формування валютних операцій. Організація проведення контролю та аналізу валютних операцій. Характеристика автоматизованих систем валютних операцій. Обґрунтування вибору середовища розробки. Розробка програмного модуля. Реалізація інтерфейсу користувача.
курсовая работа [1,1 M], добавлен 03.06.2012Основні типи соціальних мереж, їх класифікація, характеристики та напрями застосування. Аналіз різноманітних математичних теорій, що використовуються для дослідження соціальних мереж. Психологічні аспекти користування онлайновими мережами в Інтернеті.
дипломная работа [3,0 M], добавлен 02.12.2014Дерева як відомі нелінійні структури, їх внутрішній склад і головні функції. Дослідження системи пошуку TangoTree, принцип її роботи та оцінка ефективності. Опис операцій "Пошук", "Оновлення", "Приєднання", "Вирізати". Програмна реалізація TangoTree.
курсовая работа [753,6 K], добавлен 29.06.2022