Интеллектуальный анализ данных, который способствует поддержке маркетинга в компании
Исследование особенностей реляционной модели базы данных, которая представляет собой плоскую модель данных. Ознакомление с основными задачами отдела маркетинга. Рассмотрение диаграммы профилей кластеров. Анализ таблицы вероятностей оттока клиентов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 04.09.2016 |
Размер файла | 3,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
- Введение
- 1. Теоретические основы и анализ объекта исследования
- 1.1 Теоретические предпосылки исследования
- 1.2 Объект и предмет исследования
- 1.3 Цель и задачи исследования
- 2. Разработка СППР на основе методов интеллектуального анализа данных
- 2.1 Предложенный подход к решению задач исследования
- 2.2 Работа с данными для анализа
- 3. Применение методов интеллектуального анализа данных
- 3.1 Задача поведенческой сегментации, формирование портретов клиентов по поведению
- 3.2 Прогнозирование оттока клиентов и поиск ассоциативных правил
- 3.3 Прочие практически полезные знания
- Заключение
- Список использованных источников
- Приложения
Введение
В связи возникших условий экономического кризиса наблюдается рост издержек маркетинговой деятельности. Отдел маркетинга компании «ELEMENTAREE» испытывает трудности, вызванные низкой эффективностью деятельности отдела: высокой стоимостью привлечения новых клиентов и малым коэффициентом реконверсий заказов клиентов. Для повышения продуктивности отдела была выявлена потребность внедрения подходящей системы поддержки принятия решений (СППР), с помощью которой будет производится анализ имеющейся базы данных маркетингового отдела. Предметом исследования является система интеллектуального анализа данных и процессы принятия маркетинговых решений производственной компании. Основной целью исследования является интеллектуальный анализ данных, который способствует поддержке маркетинга в компании «ELEMENTAREE». Это предполагает полный цикл разработки системы поддержки принятия решений, основанной на методах интеллектуального анализа данных: обработку исходных файлов с данными, разработку базы данных, предварительную обработку данных, интеллектуальный анализ данных, вывод результатов на пользовательский интерфейс и формирование рекомендаций для маркетингового отдела компании. Результат исследования должен повлиять на решение задач, поставленных перед отделом маркетинга компании.
В первой главе представлены теоретические предпосылки исследования, производится описание объекта и предмета исследования, а также цели и задачи исследования. Глава вторая посвящена описанию предложенного подхода к решению задач, описанию выбранных алгоритмов интеллектуального анализа данных, описанию исходных данных, разработке базы данных и предварительной обработке данных. Глава третья посвящена интеллектуальному анализу данных, в рамках которого выявляются и анализируются часто встречаемые манеры поведения клиентов, и формируются сегменты клиентов поведению. Отражено формирование прогнозирующей модели оттока клиентов из компании. Также представлены полученные знания из данных, способствующие увеличению эффективности работы отдела прямых продаж. В заключении отображены основные выводы проделанного исследования и дальнейшие перспективы для анализа данных с помощью, сконструированной СППР.
1. Теоретические основы и анализ объекта исследования
1.1 Теоретические предпосылки исследования
Системы поддержки принятия решений
Системы поддержки принятия решений (СППР), представляют собой приложения узкого профиля, которые предназначены для аналитиков и менеджеров, специализирующихся на данном профиле [8]. Они характеризуются возможностью реализации высокого уровня формализации выработки рекомендаций для принятия различных решений, включая управленческие. При этом, сильно снижается уровень «человеческого фактора», который может привести к субъективной оценке. На практике весьма востребованы информационные системы для автоматизации учета и управления. Это объясняется наличием высокоэффективных и высокопроизводительных типовых средств регистрации и обработки данных. Подобные СППР могут быть автоматическими или автоматизированными. Результатом работы СППР для автоматизации учета и управления является получение итоговых отчетов. Одной из основных задач информационной системы поддержки принятия решений является - выбор среди множества альтернатив одной, которая подходит наилучшим образом для достижения определенной цели. Для анализа данных в СППР используется множество различных методов. Среди передовых выделяют: интеллектуальный анализ данных, информационный поиск (аналитические запросы), поиск знаний в базах данных (поиск скрытой, неочевидной информации в данных), имитационное моделирование, нейронные сети и др. СППР, поддерживающие работу методов искусственного интеллекта, называют интеллектуальными СППР (ИСППР). Четкого определения СППР не существует, однако, имеется некоторый набор характеристик, предложенный Турбаном (Turban, 1995) [14], для современных СППР, которым система должна соответствовать:
· СППР для работы использует данные и модели
· СППР предназначается для помощи в принятии решений слабоструктурированных, неструктурированных или нетривиальных задач
· СППР служит поддержкой для аналитика (менеджера, консультанта) в принятии решений, а не заменяет его
· Основной целью СППР является увеличение показателей эффективности решений.
Рис 1. Обобщенная архитектура системы поддержки принятия решений
Базы данных (БД). Databases (DB)
На текущий момент все основные идеи информации, информационных технологий и данных базируются на концепции баз данных. Основой данных информационных технологий являются данные, которые организованы в базах данных. Необходимо иметь возможность сообразно отображать данные, а также с помощью данных отображать изменения реального мира во времени и воздавать информационные потребности пользователей [3]. Данными называют описание восприятия реального мира.
Концепция Баз Данных (БД)
Основной характеристикой систем управления баз данных (СУБД) является наличие процедур для ввода, хранения и обработки данных, а также описания их структуры. Для работы СППР с данными, анализа данных и поиска решений необходимо накопление и хранение массивных объемов информации (данных). В настоящий момент наиболее распространён «реляционный» подход к построению БД, также его называют ER-моделированием. Кодд (1970) сформулировал 12 правил для реляционной БД:
1. Данные представляются в виде таблиц. БД состоит из набора таблиц, в которых хранятся данные. Данные группируются в форму рядов и столбцов. Набор значений, который относится к одному объекту, хранящемуся в таблице, отображается в рядах. Также его называют «записью». Столбцом определяется единая характеристика для всех объектов таблицы. Столбцы также называют полями.
2. Данные доступны логически. Подразумевается, что к ячейке нельзя обратиться физически, указав номер ряда и столбца. Доступ реализуется только через идентификаторы таблицы. Первичный ключ является уникальным идентификатором в рамках одной таблицы. Первичные ключи, которые образуются из нескольких полей, называются составными ключами.
3. NULL трактуется как неизвестное значение. Если значение ячейки не заполнено, то записывается значение «NULL».
4. БД должна включать в себя метаданные. Имеется в виду, что в БД помимо пользовательских таблиц, которые заполняются пользователем, хранятся и системные таблицы. Метаданные (данные о данных) хранятся в системных таблицах.
5. Для взаимодействия с СУБД должен использоваться единый язык. В настоящее время используется SQL.
6. СУБД должна обеспечивать альтернативный вид отображения данных. Пользователь должен иметь возможность строить представления (виртуальные таблицы), которые представляют собой динамическое объединение нескольких таблиц. Изменения в представлениях должны автоматически переноситься на исходные таблицы.
7. Должны поддерживаться операции реляционной алгебры. Над записями реляционной БД осуществляются операции реляционной алгебры. В настоящее время данное правило реализуется через SQL.
8. Должна обеспечиваться независимость от физической организации данных. СУБД и иные приложения, оперирующие с данными реляционной БД, не должны зависеть от метода физического хранения данных.
9. Должна обеспечиваться независимость от логической организации данных. СУБД и иные приложения, оперирующие с данными реляционной БД не должны зависеть от метода логической организации связей между таблицами.
10. За целостность данных отвечает СУБД. Под целостностью подразумевается готовность БД к работе. Выделяют два типа целостности:
· Физическая целостность - сохранность данных на носителях, корректность формата хранения;
· Логическая целостность - актуальность и непротиворечивость данных.
11. Целостность данных не может быть нарушена. Целостность должна обеспечиваться при любых манипуляциях с данными.
12. Должны поддерживаться распределенные операции. Имеется ввиду, что реляционная БД может располагаться как на одном носителе, так и на нескольких сразу. Пользователь должен иметь возможность связывать данные из разных носителей.
Транзакцией называют последовательность операций над БД, которые рассматриваются СУБД как единое целое. Развитые методы управления транзакциями в СУБД делают их основным средством для построения OLTP-систем (Online Transaction Processing Systems), которые предназначены для оперативной обработки транзакций. Однако, для анализа данных эффективность использования OLTP-систем мала. Это вызвано тем, что характеристики OLTP-систем не удовлетворяют требованиям к системе анализа данных. Так, например, OLTP-системы могут хранить только детализированные данные, но не обобщенные; допускаются выбросы, незаполненные строки, ошибки в данных; требуется обеспечение максимальной нормализации; доступ к данным осуществляется по заранее составленным запросам и др. Основной недостаток реляционной БД заключается в отсутствии возможности обработки информации, которая не может быть представлена в табличном формате. В подобных случаях используют объектно-ориентированные модели
Концепция Хранилищ Данных (ХД)
Концепция ХД заключает в себе возможности OLTP-систем и систем анализа. ХД данных представляет собой набор данных, который является неизменным, интегрированным и поддерживающим хронологию [1]. В ХД возможно лишь добавление данных, а не редактирование или удаление уже хранящихся данных. Основные свойства ХД:
· Предметная ориентация. Одно из фундаментальных различий между ХД и Оперативными Источниками Данных (ОИД). Данные в ХД могут описывать одну и ту же предметную область с разных точек зрения. Также в ХД хранятся только необходимые для анализа данные.
· Интеграция. В ХД данные из разных ОИД приводятся к единому формату.
· Поддержка хронологии. Данные, которые хранятся в ХД, соответствуют последовательным интервалам времени.
· Неизменяемость. Для анализа требуются данные за максимально большой период времени. Данные в ХД после загрузки, как правило, только читаются и добавляются.
На концепции ХД основаны методы реализации таких подсистем анализа, как OLAP-системы или Data Mining системы. ETL-процесс является процессом, который производит обработку, очистку и предварительную подготовку данных для их последующей записи в ХД.
Для реализации в СППР концепции ХД все данные из различных ОИД копируются в единое ХД. При копировании данных из ОИД в ХД на стадии ETL-процессов проводится приведение данных к единому формату и структуре
Рис 2. Структура СППР с физическими ХД
Подобная система является эффективной с точки зрения быстродействия. Однако, такой метод вызывает избыточность информации, так как данные хранятся как в ОИД, так и в ХД.
Для исключения избыточности информации используется виртуальное ХД, которое не хранит данные, а лишь ссылается на ОИД. Но с использованием виртуального ХД значительно снижается скорость быстродействия. Также, в случае виртуального ХД, для успешного функционирования такого подхода, необходим постоянный доступ всех ОИД. Перерывы в работе любого из ОИД могут привести к невыполнению аналитического запроса. Основным недостатком виртуального хранилища данных является практическая невозможность получения данных из ОИД за долгий период. Таким образом, организация виртуального ХД является уместной при работе только с текущими детализированными данными, или при необходимости минимизации объема занимаемой памяти.
Процесс организации физического ХД является довольно трудоемким:
· Данные необходимо интегрировать из неоднородных источников. Основной целью ХД является агрегирование и аккумуляция данных из разнородных ОИД.
· Большие объемы информации необходимо эффективно хранить и обрабатывать. ХД обладает свойством неизменности имеющийся информации и добавлением новой, что подразумевает накопление информации. Постоянно растущее количество информации приводит к вынужденному увеличению объемов дискового пространства (памяти). Денормализация данных, которая необходима для выполнения аналитических запросов, приводит к нелинейному росту объемов занимаемой памяти.
· Метаданные должны быть многоуровневыми. Наличие развитых метаданных и средств их визуализации для пользователей является одним из наиболее важных условий успешной организации и реализации ХД. Метаданные необходимы для понимания структуры и форматов информации
· Необходима повышенная безопасность данных. В ХД могут храниться конфиденциальные данные. По этой причине задача разграничения прав доступа пользователей к информации в ХД является важной.
Альтернативой ХД является Витрина Данных (ВД). ВД представляет собой упрощенный вариант ХД, где содержатся только тематически объединенные данные. ВД можно реализовать автономно, а можно и вместе с ХД. Второй тип реализации ВД в последнее время становится наиболее популярным среди компаний. При таком подходе ХД становится единственным источником интегрированных данных, а ВД являются подмножествами данных из ХД. Конечные пользователи могут использовать как исключительно ВД для анализа, так и ХД, если необходимых данных нет в ВД.
Рис 3. Структура СППР с ХД и ВД
Основным недостатком такого подхода является большая избыточность информации, так как данные хранятся сразу в ОИД, ХД и ВД.
OLAP-системы (Online Analytical Processing Systems)
Реляционная модель БД представляет собой плоскую модель данных, отображающуюся в табличной форме, тогда как OLAP-кубы представляют собой многомерные модели данных, что в определенных случаях удобнее для аналитика. OLAP является технологией оперативной аналитической обработки данных. Целью OLAP-анализа является проверка возникающих гипотез [1]. Кодд (1993) описал основные концепции OLAP и определил требования, которым OLAP должен отвечать:
1. Многомерность. OLAP-система на концептуальном уровне должна представлять данные в виде многомерной модели
2. Прозрачность. OLAP-система должна скрывать от пользователя действительную реализацию многомерной модели, метод её организации, средства обработки, средства хранения и источники информации.
3. Доступность. OLAP-система должна предоставлять пользователю единую, целостную и согласованную модель данных, обеспечивать доступ к данным независимо от места их хранения
4. Постоянная производительность при разработке отчетов. Производительность OLAP-систем не должна существенно снижаться при увеличении количества измерений для анализа.
5. Клиент-серверная архитектура. Пользователь должен иметь доступ к клиент-серверной среде. Имеется ввиду, что OLAP-система должна позволять строить общую концептуальную схему на основе консолидации и обобщения из различных физических и логических схем БД.
6. Равноправие измерений. В многомерной модели OLAP-системы все измерения должны быть равноправны.
7. Динамическое управление разреженными матрицами. OLAP-система должна обеспечивать оптимальную обработку разреженных матриц.
8. Поддержка многопользовательского режима. OLAP-система должна предоставлять возможность работать сразу нескольким пользователям совместно над аналитической моделью.
9. Неограниченные перекрестные операции. OLAP-система должна обеспечивать сохранение функциональных отношений между ячейками гиперкуба при выполнении любых операций среза, вращения, консолидации или детализации. Преобразования установленных отношений должны выполняться автоматически.
10. Интуитивная манипуляция данными. OLAP-система должна давать возможность работать с моделью без необходимости пользователю совершать множество манипуляций.
11. Гибкие возможности получения отчетов. OLAP-система должна поддерживать различные методы и способы визуализации данных.
12. Неограниченная размерность и число уровней агрегации.
Дополнительные правила Кодда
13. Пакетное извлечение против интерпретации. OLAP-система должна одинаково эффективно обеспечивать доступ к собственным и внешним данным.
14. Поддержка всех моделей OLAP-анализа. OLAP-система должна поддерживать категориальную, толковальную, умозрительную и стереотипную модель анализа данных.
15. Обработка ненормализованных данных. Должна быть возможность интеграции OLAP-системы с ненормализованными источниками данных.
16. Сохранение результатов OLAP: хранение отдельно от исходных данных. OLAP-система, которая работает в режиме чтения и записи, должна сохранять результаты работы отдельно, не изменяя исходные данные.
17. Исключение отсутствующих значений. OLAP-система должна отбрасывать все отсутствующие значения.
18. Обработка отсутствующих значений. OLAP-система должна игнорировать все отсутствующие значения независимо от их источника.
Выделяют три основных способа организации OLAP:
· Многомерный OLAP (MOLAP), использует многомерные БД для реализации многомерной модели. Данные хранятся в виде упорядоченных многомерных массивов. Подобные массивы делятся на гиперкубы и поликубы.
o Гиперкуб. Все хранимые ячейки имеют одну и ту же мерность
o Поликуб. Каждая ячейка имеет свой собственный набор измерений. При этом возникает большая сложность обработки
Основным преимуществом использования MOLAP являются быстродействие и оперативность системы. Однако, из-за денормализации данных и их предварительной агрегации объем данных относительно исходной БД возрастает от 2,5 до 100 раз. Дополнительным недостатком MOLAP-системы является её чувствительность к изменениям. Добавление нового измерения приводит к изменению структуры всей многомерной БД.
Использовать MOLAP уместно в случаях, когда объем исходных данных не более нескольких гигабайт, структура БД стабильна, а быстродействие системы является наиболее важным параметром
· Реляционный OLAP (ROLAP), использует реляционные БД для организации модели. Наиболее популярными схемами реляционных БД для построения ROLAP-модели являются схемы «Звезда» и «Снежинка». Для схемы «Звезда» основными составляющими являются денормализованная таблица фактов и множество таблиц измерений. Первичным ключом в таблице фактов, как правило, является составной ключ, который объединяет первичные ключи таблиц измерений. Каждая таблица измерений находится в отношении «один ко многим» (1 to n) с таблицей фактов. Схема «Снежинка» используется при наличии сложных задач, связанных с иерархическими измерениями.
Основными достоинствами ROLAP-систем являются: удобство реализации, гибкость модели реляционной БД, высокий уровень защиты данных. При этом, производительность ROLAP меньше чем MOLAP. Но при хорошей реализации и настройке схемы «Звезда», производительность становится сопоставимой с MOLAP
· Гибридный OLAP (HOLAP), использует многомерные и реляционные БД для реализации многомерной модели. Другими словами, HOLAP системы объединяют технологии ROLAP и MOLAP для повышения производительности и сохранения основных преимуществ ROLAP +
Data Mining системы (системы интеллектуального анализа данных).
Data Mining имеет характеристику по исследованиям и обнаружениям ЭВМ знаний [13]. Существуют определенные требования к полученным с помощью Data Mining знаниям:
· Знания должны быть новыми, ранее неизвестными. Естественное требование к характеристике получаемых знаний, так как поиск уже известной информации не несет никакой ценности
· Знания должны быть нетривиальными. Полученные знания должны быть неочевидными, скрытыми в данных, должны отражать закономерности в данных.
· Знания должны быть практически полезны. Полученные знания должны быть применимы и приносить определенную выгоду от использования.
· Знания должны быть доступны для понимания человеку. Полученные знания должны быть логически объяснены и представлены в понятном для пользователя виде.
По назначению задачи Data Mining делятся на описывающие и предсказательные. Первые, такие как кластеризация и поиск ассоциативных правил, улучшают понимание анализируемых данных, выдавая в итоге прозрачные для восприятия аналитиком результаты. Вторые, такие как регрессия и классификация, помогают спрогнозировать некоторые данные и показатели. Также алгоритмы Data Mining разделяют на «обучающиеся с учителем» и «обучающиеся без учителя».
· Классификация и регрессия. Классификация применяется в случае, если требуется осуществить разбиение множества объектов на классы. С точки зрения Data Mining, задачу классификации рассматривают как задачу определения одного дискретного объекта на основании значений других параметров. Если значениями зависимой и независимой переменных являются действительные числа, то такая задача относится к задаче регрессии. Задачи классификации и регрессии разбиваются на два этапа:
o выделение обучающей выборки, в которую входят объекты с известными значениями как независимых, так и зависимой переменной;
o применение построенной модели для анализа зависимой переменной.
Стоит отметить, что для корректной работы методов классификации и регрессии необходимо провести качественную предварительную обработку данных.
· Задача поиска ассоциативных правил. Главная цель данной задачи заключается в выявлении часто встречаемых наборов объектов в большой выборке. Метод поиска ассоциативных правил является частным случаем метода классификации. Секвенциальным анализом называется разновидность задачи поиска ассоциативных правил. Смысловая ценность секвенциального анализа заключается в предсказании с некоторой долей вероятности появления события в будущем, то есть - предсказательный анализ.
· Задача кластеризации. Задача кластеризации заключается в разделении некоторых множеств объектов на кластеры, то есть группы схожих объектов. Кластерный анализ хорошо подходит для выявления портрета потребителя, сегментации клиентов, поведенческого анализа. Как правило, задача кластеризации помогает «объяснить» данные. Часто используется на первых этапах более сложного анализа, когда у аналитика недостаточно знаний, связанных с данными. В качестве коечного результата решения задачи кластеризации принимается выделение групп наиболее близких и похожих между собой объектов (кластеров).
· Нечеткая логика. При работе с методами нечеткой логики могут возникать трудности, связанные с неопределенностью, недостоверностью, неполнотой и неизвестностью информации. Есть два типа неопределенности информации: физическая и лингвистическая. Для первого случая подходят методы классической теории множеств и теории вероятности. Для второго случая - лингвистической неопределенности - используются методы искусственного интеллекта, которые постоянно дорабатываются и расширяются.
В отличии от математических методов, нечеткая логика применяется в основном в задачах управления. Основоположник методов нечеткой логики - Л. Заде (1965), предложил лингвистическую модель, которая использует лингвистические слова, отражающие качество, а не математические выражения. При этом, по сравнению с математическими моделями, точность лингвистической модели меньше, но создание качественной модели, которая является намного более устойчивой, чем математическая - возможно. В методах и алгоритмах нечеткой логики наблюдается сравнительное сходство со здравым логическим мышлением человека.
· Генетические алгоритмы. Методы генетических алгоритмов (ГА) относятся к универсальным методам оптимизации. Предназначаются для решения множества различных, задач, например, комбинаторных. По своей сути метод ГА не всегда позволяет добиваться поставленных целей и задач исследования. Однако, он очень эффективен при интеграции с другими методами. Например, методом нейронных сетей или методом нечеткой логики.
· Нейронные сети. Нейронные сети представляют собой класс моделей, методы которых основаны на биологической аналогии с человеческим мозгом. После прохождения обучающего этапа на предназначенных для этого данных, модель может использоваться для решения различных задач анализа данных. Однако, простого обучения модели недостаточно - за аналитиком остается задача выбора архитектуры модели, числа слоев, количества нейронов и прочей настройки модели для увеличения её эффективности. Задачей нейронных сетей, как правило, является предсказание событий или значений объектов. Проблема нейронных сетей заключается в том, что аналитик не может наблюдать ничего от момента загрузки данных в модель до момента получения итогового результата, на который сильно влияет изначальная настройка модели. Важным является то, что не существует однозначных алгоритмов предварительной настройки модели для максимизации качества анализа.
1.2 Объект и предмет исследования
Объектом исследования является производственная компания ООО «Элементари» (ELEMENTAREE) (http://www.elementaree.ru/). Исследования, отображаемые в работе, проводятся в рамках компании. Компания осуществляет производство и доставку ингредиентов питания. Происходит это следующим образом: отдел закупок приобретает все необходимые ингредиенты для производства. Отдел производства предоставляет конечный продукт в виде коробки или пакета с сырыми и полу готовыми ингредиентами, а также с готовыми блюдами (например, выпечка). Также в коробке присутствует инструкция по приготовлению блюд из предоставленных ингредиентов. Реализация осуществляется в формате подписки. Подписка на услуги ELEMENTAREE предоставляется на 2 дня, неделю, а также на 2 недели и месяц. Существует два основных типа продукции:
· Diet - основной, премиум продукт, подписка на правильное питание. Блюда расцениваются как блюда диетического направления, уровня ресторанного качества. Подписка на неделю стоит 8 000 рублей, а на месяц - 27 000 рублей
· WOW - более бюджетный продукт, который был разработан в 2015-м году на фоне кризисной ситуации экономики в РФ. К 2016-му году месячный оборот по WOW составил порядка 50% от общего оборота компании. Подписка на неделю стоит 4000 рублей, а на месяц - 12 000 рублей.
Перед отделом маркетинга были поставлены следующие задачи:
· Увеличение показателей конверсии по привлечению новых клиентов. Так как компания придерживается стратегии роста и укрепления своих позиций на рынке, то привлечение новых клиентов и их удержание является одним из приоритетных направлений работы для отдела маркетинга. В рамках задачи являлось необходимым добиться максимальной эффективности в плане затрат на одного клиента.
· Увеличение показателя количества заказов на одного клиента. Другими словами - повышение долгосрочной лояльности клиентов. По предварительным расчетам было выявлено, что на одного нового клиента тратится порядка 2 500 рублей переменных издержек (реклама, маркетинговые кампании), на удержание одного клиента или на его возвращение тратится порядка 50 рублей (маркетинговые акции для клиентов). Чаще всего клиентов удается удержать или вернуть бесплатно (без учета фиксированных издержек). Однако, в среднем каждый 20-й соглашается вернуться только с условием получения скидки на подписку в размере 1 000 рублей.
· Достижения некоторого уровня прибыли с каждого клиента. Данную задачу можно рассматривать как частный случай предыдущей, однако, ей было уделено особое внимание. Так, например, при затратах на привлечение одного клиента в размере 2 500 рублей, который по итогу заказывает подписку WOW на неделю за 4 000 рублей, компания несет убытки. Для достижения компанией уровня продаж по себестоимости, клиенту необходимо оформить ещё одну аналогичную подписку. Компания будет получать прибыль только с последующих заказов клиента.
· Увеличение эффективности работы отделов компании. Данная задача была поставлена не только перед отделом маркетинга, а перед всеми отделами компании ELEMENTAREE. Задача является второстепенной и подразумевает поиск любых методов для увеличения эффективности работы не только маркетингового отдела, но и любого другого.
Ниже представлена организационная структура компании:
Рис 4. Организационная структура компании
Предмет исследования
Предметом исследования является система интеллектуального анализа данных и процессы принятия маркетинговых решений производственной компании.
1.3 Цель и задачи исследования
Цель исследования
Целью исследования является интеллектуальный анализ данных для поддержки маркетинга в производственной компании.
Задачи исследования
· Разработка базы данных, которая содержит информацию маркетингового отдела
· Предварительная обработка данных в созданной БД
· Анализ данных маркетингового отдела
· Разработка системы интеллектуального анализа данных
· Реализация моделей Data Mining для интеллектуального анализа данных
· Формирование рекомендаций для маркетингового отдела компании
· Формирование пользовательского интерфейса для просмотра полученных результатов
· Сохранение всех результатов разработки для дальнейшего использования
Задачи анализа данных
· Выявление основных типов поведения клиентов
· Сегментация клиентов по поведению (поведенческая сегментация)
· Выявление закономерности в данных, поиск ассоциативных правил
· Прогнозирование оттока клиентов (секвенциальный анализ)
2. Разработка СППР на основе методов интеллектуального анализа данных
2.1 Предложенный подход к решению задач исследования
Используя в качестве основы присутствующее в наличии программное обеспечение, которое применимо к решению поставленных задач исследования, были выбранны следующие программы для работы и анализа данных:
· MS Excel 2016
· MS SQL Server 2012 Business Intelligence
· MS Visual Studio 2012 с пакетом SQL Server Data Tools
· ErWin Data Modeler версии r9.64
Основываясь на теоретической части первой главы можно выделить три основных подсистемы анализа:
· Система аналитических запросов (SQL);
· OLAP-системы;
· Системы интеллектуального анализа данных (Data Mining).
Для выполнения всех поставленных задач исследования и получения конечного результата в виде качественных результатов анализа, необходимо использовать подходящие методы анализа. Например, кластеризация, поиск ассоциативных правил, логистическая и линейная регрессии. Данные методы необходимы для глубокого изучения данных и поиска скрытой информации в данных. Это способствует последующему принятию маркетинговых решений. По этой причине, подходящей подсистемой для внедрения была выбрана система интеллектуального анализа данных, или Data Mining. Вопрос внедрения Data Mining актуален еще и по той причине, что на текущий момент были проверены все предложенные гипотезы и получены результаты с помощью методов SQL и OLAP. Внедрение системы Data Mining является важным эволюционным этапом в развитии аналитической платформы маркетингового отдела.
В рамках проводимого исследования будут использованы следующие методы Data Mining:
· Алгоритм дерева принятия решений (Microsoft). Представляет собой алгоритм классификации и регрессии, который описывается в Главе I. Данный алгоритм был выбран, как наиболее подходящий для задачи выявления основных типов поведения клиентов.
Пусть Y - зависимая целевая переменная, которая анализируется, классифицируется и обобщается. Пусть x - это вектор, состоящий из входных переменных .
Набор данных анализируется, классифицируется и обобщается с помощью математических и вычислительных методов, которые могут быть записаны следующим образом:
,
Существует множество различных способов для выбора очередного атрибута дерева решений. Из основных выделяют:
o Алгоритм «ID3». Выбор атрибута происходит, основываясь либо на приросте информации, либо на индексе Гини (Gini)
o Алгоритм «С4.5». Представляет собой улучшенную версию алгоритма «ID3». Выбор атрибута происходит на основании нормализованного прироста информации
o Автоматический детектор взаимодействия Хи-Квадрат. Выполняет многоуровневое разделение объектов множества при классификации деревьев
· Алгоритм кластеризации (Microsoft). Представляет собой алгоритм кластеризации, который описывается в Главе I. Данный алгоритм был выбран, как наиболее подходящий для задачи сегментации клиентов по поведению.
Пусть X - множество объектов, а Y - множество кластеров.
p(x;x?) - заданная функция расстояния между объектами x ? X, x? ? X.
,
конечная обучающая выборка объектов.
Требуется разбить выборку на непересекающиеся подмножества, которые называются «кластерами». Каждый кластер состоит из объектов множества X. Требуется, чтобы объекты множества из одного кластера были как можно более похожим между собой, но как можно более разными с объектами множества другого кластера. Алгоритм кластеризации представляет собой функцию, которая каждому объекту множества ставится в сопоставление кластер .
Множество Y можно определить заранее, но чаще машине предоставляется возможность выбрать оптимальное количество кластеров. Алгоритм кластеризации от Microsoft, как правило, генерирует 10 кластеров.
Задача кластеризации не является тривиальной и алгоритм кластеризации не определяется однозначно по причине того, что не существует однозначно наилучшего критерия качества кластерного анализа. Существует ряд критериев и алгоритмов кластеризации, которые осуществляют разумную кластеризацию, но каждый из методов дает свой результат
· Алгоритм логистической регрессии (Microsoft). Логистическая регрессия является статистическим методом определения влияния независимых переменных на зависимую. Основным отличием алгоритма от линейной регрессии является возможность использовать для анализа дискретные и логические переменные. Логистическая регрессия часто используется для прогнозирования переменной. Прогнозируемая переменная, как правило, является логической парой (бинарная переменная). В данном исследовании алгоритм логистической регрессии используется для прогнозирования оттока клиентов.
Как и в случае с алгоритмом линейной регрессии, задача логистической регрессии может быть записана в виде следующей формулы:
,
где y - зависимая (предсказываемая) переменная, а - независимые (предсказывающие) переменные. В отличии от линейной регрессии, параметр y может быть не непрерывным на интервале [0…1], а дискретным или логическим. Конечным практическим результатом работы алгоритма является нахождения вероятности прогнозируемого события.
· Правила (алгоритм) взаимосвязей (Microsoft). Данный алгоритм выявляет закономерности в данных и строит правила. Выделяются группы объектов данных, которые с наибольшей вероятностью появляются одновременно. Данный алгоритм может быть использован как для описательных, так и для предсказательных задач. В данном исследовании алгоритм взаимосвязей был использован для прогнозирования оттока клиентов и задачи поиска взаимосвязей в данных.
Правила алгоритма взаимосвязей можно описать следующим способом:
,
Где и - вероятности набора (правила) {A, B};
- число транзакций с этим набором {A, B};
- общее количество транзакций.
Важность правил рассчитывается следующим образом:
,
Где - важность правила {A, B}.
2.2 Работа с данными для анализа
Описание исходных данных
На текущий момент (в силу большой загрузки IT-отдела) не реализован доступ к серверу с ХД, маркетинговые данные выгружаются в виде 5 таблиц формата CSV. Из данных таблиц формируется единый файл формата XLS (см. Приложение 3). В нем находится 5 таблиц:
· Leads. Таблица заявок - содержит информацию о поступающих заявках на сайт
· Missions. Таблица миссий - содержит информацию по текущим задачам. Миссия формируется автоматически при создании заявки. Одна миссия соответствует одному лиду (человеку, который оставил заявку), одному лиду соответствует одна миссия (связь 1 к 1). Если лид становится клиентом, то в соответствующее поле заносится его индикационный номер как клиента.
· Tasks. Таблица задач - напрямую связана с таблицей миссий. Для каждой миссии создаются текущие задачи (связь 1 ко многим). Например, сделать звонок, запланировать отправку электронного письма, перезвонить лиду и др. Задачи формируются автоматически исходя из результата по выполнению прошлой задачи. Также в задачах хранится их статус и результат их выполнения
· Customers. Таблица клиентов - содержит личную информацию о клиенте такую как: имя клиента, его почтовый адрес, телефон и др. Также содержит сведения о предпочтениях клиента, которые влияют на его индивидуальный рацион. Например, есть клиенты с сахарным диабетом, клиенты вегетарианцы, клиенты, которые не любят морепродукты.
· Orders. Несмотря на перевод с английского термина «order» как «заказ», таблица Orders содержит информацию о доставках, а не о заказах. В одном заказе может быть множество доставок.
Компания ELEMENTAREE быстро растет и стремительно развивается. Поэтому она является склонной к большому количеству внутренних и внешних изменений в сравнительно малые сроки. Это сказывается и на целостности данных. Например, добавляются новые поля в таблицы, старые поля подвергаются изменениям и др. Также сами поля могут быть заполнены неправильно. Так, например, в поле «улица» может попасть номер дома и квартиры, а таблица заказов не предусмотрена вовсе. Поэтому важной и значимой задачей является предварительной обработки данных.
Предварительная обработка данных является довольно трудоемкой задачей, а местами и невозможной, при использовании методов и инструментария MS Excel. Поэтому для нее будет использоваться MS SQL Server и методы SQL.
Разработка архитектуры Базы Данных и импорт данных
Для последующей работы в среде MS SQL Server и методов SQL необходимо создать БД и проект SSIS для переноса данных из XLS файла в БД.
Для построения архитектуры БД использовался ErWin Data Modeler. Созданная схема БД имеет следующий вид:
Рис 5. Схема базы данных маркетингового отдела
Было принято решение отказаться от 3НФ и от связей между таблицами по следующим причинам:
· Задача построения 3НФ является трудоемкой и не несет практического смысла для дальнейшего анализа данных.
· Само хранилище данных, из которого выгружаются исходные данные имеет ряд недочетов как по архитектуре, так и по практическому смыслу. Так, например, существуют отдельно объекты ID_Lead (идентификационный номер лида) и ID_Customer (идентификационный номер клиента), хотя необходимости в объекте ID_Customer нет. ID_Lead также может определять уникального клиента, а наличие определенного ID_Lead в таблице доставок будет определять лида как клиента компании.
· Как уже упоминалось, сырые данные содержат в себе большое количество неудовлетворяющих моментов. Как следствие сбоев и периодических преобразований ХД, встречаются случаи того, что клиенту может не найтись в соответствие лид, а лиду миссия. Таким образом связывание таблиц вызвало бы ошибку.
Из полученной схемы БД был сгенерирован скрипт, с помощью которого в пустой БД были созданы все таблицы объектов и свойств.
Перенос данных осуществляется с применением методов ETL с помощью проекта SQL Server Integration Services (SSIS). В рамках одного проекта SSIS было создано 5 задач потоков данных - по каждой из исходных таблиц. Все 5 задач потока данных соединены последовательно, имеют одинаковую структуру и предназначены для переноса данных из одной таблицы в соответствующую ей другую. Структура потоков данных выглядит следующим образом:
Рис 6. Структура потока данных проекта SSIS
При запуске блока потока данных идет подключение к XLS файлу с определенной таблицей, после чего - преобразование форматов объектов. Уточняющий запрос проверяет наличие строки в БД и передает строку на блок «OLE DB» в том случае, если таковой в БД еще нет. Назначение «OLE DB» производит перенос данных в БД. реляционный маркетинг кластер
Описание полей и таблиц
Таблица «Customers» (клиенты)
· Поле ID_Customer - идентификационный номер клиента. Тип данных - bigint. Является первичным ключом (PK)
· Поле Registered_On - дата регистрации клиента в системе (дата создания записи о клиенте). Тип данных - date
· Поле Name - имя клиента (всегда заполняется полное имя, иногда имя и отчество). Тип данных - char(255)
· Поле Email - адрес электронной почты клиента. Тип данных - char(255)
· Поле Phone - номер телефона клиента. Тип данных - char(50)
· Поле Address - полный адрес клиента (для доставки). Тип данных - char(255)
· Поле Street - улица клиента (для доставки). Тип данных - char(255)
· Поле House - номер дома клиента (для доставки). Тип данных - char(255)
· Поле Number_Apartament - номер квартиры (для доставки). Тип данных - char(30)
· Поле [Mnogo.Ru_Card] - номер карты сервиса Mnogo.ru (остается незаполненным при неимении клиентом карты). Тип данных - char(18)
· Поле Do_Not_Contact - условие связи с клиентом (только звонки, или только СМС сообщения, или запрет на любые рекламные предложения). Тип данных - char(5)
· Поле ID_Lead_Source - название ресурса, откуда клиент перешел на сайт компании. Тип данных - char(18)
· Поле Referred_By - идентификационный номер другого клиента, который пригласил клиента для осуществления заказа. Тип данных - char(18)
· Поле Birthday - дата рождения клиента. Тип данных - date
· Поле Age - возраст клиента. Тип данных - int
· Поле Weight - вес клиента. Тип данных - int
· Поле Add_Fish - информация о предпочтениях клиента касательно рыбы (по умолчанию остается незаполненным). Тип данных - char(18)
· Поле Add_Chicken - информация о предпочтениях клиента касательно мяса курицы (по умолчанию остается незаполненным). Тип данных - char(18)
· Поле Add_Cottage_Cheese - информация о предпочтениях клиента касательно козьего сыра (по умолчанию остается незаполненным). Тип данных - char(18)
· Поле No_Meat - комментарий при отказе клиента от мяса (по умолчанию остается незаполненным). Тип данных - char(18)
· Поле No_Fish - комментарий при отказе клиента от рыбы (по умолчанию остается незаполненным). Тип данных - char(18)
· Поле No_Seafood - комментарий при отказе клиента от морепродуктов (по умолчанию остается незаполненным). Тип данных - char(18)
· Поле Height - рост клиента. Тип данных - int
Таблица «Leads» (заявки)
· Поле ID_Lead - идентификационный номер лида. Тип данных - bigint. Является первичным ключом (PK)
· Поле Imported_On - дата и время импорта строки в CRM систему компании ELEMENTAREE. Тип данных - datetime
· Поле Recorded_On - дата и время осуществления заявки. Тип данных - datetime
· Поле Status_Lead - статус лида. Тип данных - char(18)
· Поле Name - указанное лидом имя. Тип данных - char(255)
· Поле Email - указанный лидом электронный почтовый адрес. Тип данных - char(255)
· Поле Phone - указанный лидом номер телефона. Тип данных - char(50)
· Поле Survey - выбранный тип продукта. Тип данных - char(255)
· Поле ID_Referrer - идентификационный номер интернет страницы, на которой была оставлена заявка. Тип данных - int
· Поле Variant - выбранный тип подпродукта. Тип данных - char(60)
· Поле UTM_Sourse - название ресурса, откуда клиент перешел на сайт компании. Тип данных - char(255)
· Поле UTM_Campaign - название рекламной кампании, на которую откликнулся лид. Тип данных - char(255)
· Поле UTM_Medium - тип связи с клиентом. Тип данных - char(255)
· Поле UTM_Term - название группы рекламных кампаний. Тип данных - char(255)
· Поле UTM_Content - тип контента рекламной кампании. Тип данных - char(20)
· Поле ID_Customer - идентификационный номер клиента (по умолчанию проставляется «0»). Тип данных - bigint
Таблица «Missoins» (миссии)
· Поле ID_Mission - идентификационный номер миссии. Тип данных - bigint. Является первичным ключом (PK)
· Поле Type - тип продукта. Тип данных - char(20)
· Поле ID_Customer - идентификационный номер клиента (по умолчанию проставляется «0»). Тип данных - bigint
· Поле Customer_Name - актуальное имя клиента. Тип данных - char(255)
· Поле Customer_Phone - актуальный номер телефона клиента. Тип данных - char(50)
· Поле ID_Lead - идентификационный номер лида. Тип данных - bigint
· Поле Status_Mission - статус миссии. Тип данных - char(20)
· Поле Created_On - дата создания миссии. Тип данных - datetime
· Поле Finished_On - дата окончания миссии. Тип данных - datetime
· Поле Allocated_To - имя ответственного менеджера сопровождения клиентов. Тип данных - char(50)
Таблица «Orders» (доставки)
· Поле ID_Order - идентификационный номер заказа. Тип данных - bigint. Является первичным ключом (PK)
· Поле Created_By - имя менеджера, который создал доставку. Тип данных - char(100)
· Поле Created_On - дата создания доставки. Тип данных - date
· Поле ID_Customer - идентификационный номер клиента. Тип данных - bigint
· Поле Customer_Name - имя человека, принимающего заказ. Тип данных - char(180)
· Поле Email - актуальный адрес электронной почты. Тип данных - char(180)
· Поле Phone - актуальный номер телефона. Тип данных - char(50)
· Поле Subscriber - согласие или запрет клиента на рассылку электронных писем. Тип данных - char(5)
· Поле [Mnogo.Ru_Card] - номер карты сервиса Mnogo.ru (остается незаполненным при неимении клиентом карты). Тип данных - char(30)
· Поле Total_Before_Discount - сумма заказа до вычета скидки. Тип данных - money
· Поле Discount_Type - тип скидки (процентный, абсолютный). Тип данных - char(14)
· Поле Discount_Amount - размер скидки. Тип данных - money
· Поле Campaign - название компании, если доставка осуществляется в офис. Тип данных - char(70)
· Поле Total - итоговая сумма к оплате (дебиторская задолженность). Тип данных - money
· Поле Total_Collected - сумма, которую клиент оплатил. Тип данных - money
· Поле Payment_Method - тип оплаты. Тип данных - char(10)
· Поле Delivery_Date - дата доставки. Тип данных - date
· Поле Status_Order - статус доставки. Тип данных - char(18)
· Поле Opened_By - имя последнего редактировавшего информацию по заказу. Тип данных - int
· Поле Opened_On - дата последнего редактирования. Тип данных - char(30)
· Поле Delivery_to - номер района Москвы, куда будет доставка. Тип данных - int
· Поле Short_Delivery_Window - наличие усеченного временного интервала доставки. Тип данных - char(5)
· Поле Delivery_H0 - начало временного интервала доставки. Тип данных - char(50)
· Поле Delivery_H1 - конец временного интервала доставки. Тип данных - char(50)
· Поле Delivery_Area - отражает информацию внутри МКАДа доставка или во вне. Тип данных - char(18)
· Поле Delivery_By - имя курьера, осуществляющего доставку. Тип данных - char(50)
· Поле Delivered_On - фактическое время доставки. Тип данных - char(30)
· Поле Box_Count - количество коробок в заказе. Тип данных - int
· Поле Box_Marking_# - наличие в коробке дополнительной бесплатной продукции от ELEMENTAREE. Тип данных - int
· Поле Diet_Plan_Group - идентификационный номер заказа с продукцией DIET. Тип данных - int
· Поле WOW_Plan_Group - идентификационный номер заказа с продукцией WOW. Тип данных - int
· Поле Payment_Status - подтверждение платежа. Тип данных - char(28)
Таблица «Tasks» (задачи)
· Поле ID_Task - идентификационный номер задачи. Тип данных - bigint. Является первичным ключом (PK)
· Поле ID_Mission - идентификационный номер миссии. Тип данных - bigint
· Поле Mission_Type - тип миссии. Тип данных - char(30)
· Поле ID_Customer - идентификационный номер клиента. Тип данных - bigint
· Поле Customer_Name - актуальное имя клиента. Тип данных - char(255)
· Поле Customer_Phone - актуальный номер телефона клиента. Тип данных - char(50)
· Поле Type_Task - тип задачи. Тип данных - char(255)
· Поле Created_On - дата создания задачи. Тип данных - datetime
· Поле Date_Of_Action - запланированная дата выполнения задачи. Тип данных - date
· Поле Time_From - начало временного интервала выполнения задачи. Тип данных - char(50)
· Поле Time_To - конец временного интервала выполнения задачи. Тип данных - char(50)
· Поле Priority_Of_Task - приоритет задачи. Тип данных - int
· Поле [User] - ответственный менеджер. Тип данных - char(50)
· Поле Outcome - результат выполнения задачи. Тип данных - char(255)
· Поле Shift_Count - количество раз откладывание задачи на будущее время. Тип данных - int
Предварительная обработка данных
В рамках предварительной обработки данных было сделано следующее:
· Формирование таблицы «Заказы» (назв. «InterM5F») (см. Приложение 4). Как уже упоминалось выше, среди пяти таблиц выгрузки, нет таблицы заказов. Но именно данная таблица представляет для анализа наибольший интерес. Таблица по заказам была сформирована на базе других таблиц, путем преобразования и агрегации данных. В результате, с точки зрения реализации, таблица по заказам была сформирована в форме представления БД, а не таблицы БД. Данный метод был выбран по некоторым причинам, таким как: автоматическое обновление таблицы при добавлении новых записей в БД, легкость преобразования таблицы, изменение или добавление объектов в таблицу.
· Для анализа данных помимо представления «Заказы» были также созданы дополнительные представления:
o InterM6F - отражает информацию заказов по клиенту. Одна строка таблицы соответствует одному клиенту. Содержит личную информацию о клиенте, даты его первого и последнего заказов, суммарное количество заказов, суммарный счет к оплате, суммарное количество доставок. Представление также содержит вспомогательный логический столбец, отражающий находится ли клиент в оттоке, или нет.
o ThirdTimeColPlus - отражает полную информацию по первым трем заказам клиентов, у которых имеется 3 и более заказов. Предназначено для анализа поведенческой сегментации.
· Очистка данных. Согласно разработанному алгоритму из созданной и заполненной БД были удалены все тестовые строки, а также другие строки, которые нельзя использовать для анализа. Также для анализа были оставлены данные начиная с 2015-й года в связи с непригодностью данных 2014-го года.
· Заполнение пропущенных строк. Согласно разработанному алгоритму, в основе которого подстановка средних или релевантных значений, были заполнены пустые поля строк. Ни по одному из важных для анализа объектов не было более 8% пропущенных значений, поэтому заполнение пропущенных значений не должно сильно сказаться «шумом» при построении итоговых моделей анализа
· Избавление от выбросов. Среди данных иногда встречаются так называемые «экстремальные» значения (выбросы). Было выявлено две причины подобных выбросов:
o ошибка при ручном вводе данных менеджерами;
o ошибки в настройке алгоритмов автоматического формирования данных.
Данные выбросы влияют на качество анализа тем, что создают «шум» в данных, что влияет на результат работы алгоритмов. Например, в одном заказе могло оказаться 16 доставок, что говорит о том, что одна строка заказа содержала агрегированную информацию по двум заказам. Строки подобного рода дробились пополам, остальные выбросы заменялись заранее определенными максимально и минимально допустимыми значениями объекта.
Подобные документы
Описание предметной области, определение функциональных требований к системе и построение диаграммы потока данных. Построение модели "сущность-связь", описание сущностей и атрибутов модели. Построение реляционной базы данных и описание ее таблицы.
курсовая работа [624,5 K], добавлен 30.05.2019Системный анализ и анализ требований. Концептуальная модель данных. Проектирование логической структуры реляционной базы данных. Даталогическая модель базы данных. Алгоритмы реализации модулей и их реализация (запросы, таблицы, формы, отчеты, макросы).
курсовая работа [1,6 M], добавлен 17.12.2015Базы данных с двумерными файлами и реляционные системы управления базами данных (СУБД). Создание базы данных и обработка запросов к ним с помощью СУБД. Основные типы баз данных. Базовые понятия реляционных баз данных. Фундаментальные свойства отношений.
реферат [57,1 K], добавлен 20.12.2010Определенная логическая структура данных, которые хранятся в базе данных. Основные модели данных. Элементы реляционной модели данных. Пример использования внешних ключей. Основные требования, предъявляемые к отношениям реляционной модели данных.
презентация [11,7 K], добавлен 14.10.2013Рассмотрение особенностей структурной и целостной частей реляционной модели базы данных, их функции. Знакомство с основными этапами разработки стратегии поддержания ссылочной целостности. Общая характеристика способов манипулирования реляционными данными.
курсовая работа [565,8 K], добавлен 25.04.2013Сущность и характеристика типов моделей данных: иерархическая, сетевая и реляционная. Базовые понятия реляционной модели данных. Атрибуты, схема отношения базы данных. Условия целостности данных. Связи между таблицами. Общие представления о модели данных.
курсовая работа [36,1 K], добавлен 29.01.2011Основные понятия реляционной модели данных. Отношение атрибутов внутри модели. Контроль ссылочной целостности (анализ содержимого ключевых полей связанных таблиц). Нормализация отношений реляционной базы данных. Теоретико-множественные операции.
реферат [69,8 K], добавлен 19.12.2011Сущности и функциональные зависимости базы данных. Атрибуты и связи. Таблицы базы данных. Построение ER-диаграммы. Организация ввода и корректировки данных. Реляционная схема базы данных. Реализация запросов, получение отчетов. Защита базы данных.
курсовая работа [2,4 M], добавлен 06.02.2016Особенности разработки инфологической модели и создание структуры реляционной базы данных. Основы проектирования базы данных. Разработка таблиц, форм, запросов для вывода информации о соответствующей модели. Работа с базами данных и их объектами.
курсовая работа [981,4 K], добавлен 05.11.2011Построение концептуальной модели, процесс моделирования смыслового наполнения базы данных. Основные компоненты концептуальной модели. Построение реляционной модели. Целостность данных в реляционной базе. Нормализация. Проектирование базы данных в ACCESS.
курсовая работа [1,8 M], добавлен 29.10.2008