Прогнозирование продаж торговой сети на базе IBM SPSS Modeler
Проведение исследования ритейла и задачи прогнозирования. Теоретические основы временных рядов и прогностических моделей. Основы баз данных и хранилищ. Практическая реализация проектирования продаж торговой сети. Сущность и свойства моделирующего узла.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 15.09.2018 |
Размер файла | 6,5 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет бизнеса и менеджмента
Выпускная квалификационная работа
ПРОГНОЗИРОВАНИЕ ПРОДАЖ ТОРГОВОЙ СЕТИ НА БАЗЕ IBM SPSS MODELER
Рогожин Евгений Юрьевич
Москва 2018
Оглавление
Введение
Глава 1. Теоретические основы прогнозирования продаж
1.1 Ритейл и задача прогнозирования
1.2 Обзор литературы
1.3 Теоретические основы временных рядов и прогностических моделей
1.4 Основы баз данных и хранилищ
Глава 2. Постановка задачи и инструментальные средства
2.1 Задачи и требования
2.2 Описание исходных данных
2.3 Структура обработанных данных
2.4 Среда анализа IBM SPSS Modeler
Глава 3. Практическая реализация прогнозирования продаж торговой сети
3.1 Моделирующий узел и его свойства
3.2 Описание потока
3.3 Констатация модели
Заключение
Список литературы
Введение
Розничная торговля - одна из самых развитых сфер бизнеса в современном мире, общий объём выручки топ 250 мировых ритейл компаний за 2016 год составляет 4,4 триллиона долларов [1]. По данным Федеральной службы государственной статистики, оборот розничной торговли по Российской Федерации с каждым годом растёт (см. рисунок 0)
Основной показатель таких компаний - это, безусловно, продажи. Прогнозирование продаж является одним из наиболее важных вопросов, стоящим за принятием всех стратегических и планирующих решений в любом розничном бизнесе. Важность точных прогнозов продаж для эффективного управления запасами как на уровне отдельных продаж по магазину/продукту, так и на уровне совокупных продаж уже давно признана. Плохие прогнозы обычно приводят к слишком большому или слишком малому запасу продукта, что напрямую влияет на прибыльность и конкурентоспособность компании. На организационном уровне прогнозирование продаж очень важно для любого розничного бизнеса, поскольку его результат используется многими функциями в организации: отделы финансов и бухгалтерского учета могут планировать затраты, уровень прибыли и потребности в капитале; отдел продаж может получить знания об объёме продаж каждого продукта; отдел закупок может планировать краткосрочные и долгосрочные покупки; отдел маркетинга может планировать свои действия и оценивать влияние различных маркетинговых стратегий на объем продаж; и наконец отдел логистики может определить специфические логистические потребности. Точные прогнозы продаж могут повысить прибыльность ритейлеров за счет повышения эффективности цепочки операций и минимизации отходов. Более того, точные прогнозы розничных продаж могут улучшить способность портфельных инвесторов прогнозировать изменения цен на акции розничных сетей. Обычно предпочтительными являются временные ряды розничных продаж, поскольку они содержат как трендовые, так и сезонные модели, что является хорошей площадкой для сравнения методов прогнозирования и потому, что компании могут извлечь выгоду из более точных прогнозов.
Таким образом, объектом данного исследования является розничная торговая сеть.
В свою очередь, предмет исследования - это продажи данной сети магазинов.
Целью данной работы является построение прогнозирующей модели продаж для конкретной розничной сети.
Для достижения цели работы, были выдвинуты следующие задачи:
Изучить литературу, посвященную прогнозированию продаж
Обработать исходные данные и подготовить их к последующему анализу
Привести данные к структуре, считываемой выбранным инструментом анализа
Построить прогнозную модель
Рассчитать ошибку прогнозирования
Оптимизировать параметры модели для минимизации ошибки прогноза
Для решения вышеизложенных задач исследования, был определен следующий инструментарий:
Microsoft Power BI - построение отчетов для верхнеуровневого анализа и сбора инсайтов.
Microsoft SQL Server - построение структуры базы данных
IBM SPSS Modeler - платформа прогнозной аналитики для разработки модели
Структура работы
Выпускная квалификационная работа состоит из трёх глав. В первой главе описаны теоретические предпосылки исследования, и проведен анализ предметной области, вкупе с соответствующей литературой.
Вторая глава посвящена детальной постановке основной задачи исследования, описанию исходных данных, их обработке и подготовке, а также описанию платформы, на базе которой будет строится прогнозная модель.
Третья глава содержит описание практической реализации разработанного подхода и констатацию итоговой модели.
Как итог, в заключении ВКР, будут сформулированы результаты, полученные в ходе данной работы.
Глава 1. Теоретические основы прогнозирования продаж
1.1 Ритейл и задача прогнозирования
Управление розничными продажами имеет первостепенное значение для розничных организаций и производителей розничных товаров. Из-за конкуренции и глобализации прогнозирование продаж играет значительную роль на коммерческом предприятии [2]. Многие розничные торговцы пытаются сократить свои издержки и увеличить прибыль. Точная система прогнозирования продаж -- это эффективный способ достижения этих целей, поскольку надежное прогнозирование продаж способствует улучшению бизнес-стратегии. Прогнозирование будущего спроса имеет решающее значение для планирования и функционирования розничного бизнеса как на макро, так и на микроуровне.
На организационном уровне прогнозы продаж являются важными факторами для многих решений в различных функциональных областях, таких как маркетинг, продажи, производство, закупка, а также финансы и бухгалтерский учет [3] [4] . Прогнозы продаж также служат основой для региональных и национальных планов распределения и пополнения. Для прибыльных ритейлеров, точное прогнозирование спроса имеет решающее значение для организации и планирования закупок, производства, транспортировки и рабочей силы, а также послепродажного обслуживания [4]. Таким образом, способность менеджеров розничной торговли оценивать вероятные объемы продаж в следующем периоде может привести к повышению удовлетворенности клиентов, сокращению отходов производства, увеличению доходов от продаж и более эффективным производственным планам.
Прогнозирование в розничной торговле в основном осуществляется по отдельным магазинам либо по совокупности продаж в сети или секторе. Отраслевые прогнозы особенно полезны для крупных розничных торговцев, которые могут иметь большую долю на рынке. Для розничной торговли Peterson [5] показывает, что крупные ритейлеры с большей вероятностью используют методы прогнозирования временных рядов и готовят прогнозы по отрасли, в то время как мелкие ритейлеры чаще выбирают методы, основанные на субъективных оценках для построения прогноза только для своей компаний. Хорошие прогнозы совокупных розничных продаж по рынку могут улучшить прогнозы отдельных розничных компаний, поскольку изменения в уровнях их продаж часто систематичны. Более точные прогнозы совокупных розничных продаж могут улучшить способность портфельных инвесторов прогнозировать изменения цен на акции розничных сетей. Плохое же прогнозирование может привести к избыточному или недостаточному запасу, что напрямую повлияет на доход и конкурентную способность.
Многие компании, как из ритейл сектора, так и из других сфер, ищут помощи в построении прогнозов на стороне. Например, огромное количество компаний выкладывает свои данные в открытый доступ на различные платформы, самая крупная из которых - kaggle.com, предлагая аналитикам со всего мира построить прогнозные модели, лучшая из которых выигрывает денежный приз, измеряющийся в тысячах, а иногда и сотнях тысяч долларов. Примером таких компаний могут послужить: Grupo Bimbo - крупнейшая хлебопекарная компания в мире, насчитывающая 2.5 миллиона точек продаж в 22 странах Америки, Европы и Азии [6], Rossman - вторая по величине сеть аптек Германии, с более чем 3600 точек по всей Европе, широко известная в России компания1С, которая разрабатывает и продает программное обеспечение, и многие другие. На момент проведения исследования, на сайте Kaggle.com 124 конкурса из 282, что составляет 44% от общего количества, были посвящены именно прогнозированию каких-либо величин, а не другим видам анализа. Таким образом, можно выделить несколько причин, почему прогнозирование продаж необходимо для бизнеса:
Прогноз помогает определять объемы производства, учитывая наличие объектов, таких как оборудование, капитал, рабочая сила, пространство и т. д.
Прогнозирование формирует основу бюджета продаж, бюджета производства и прочих видов бюджета
Он помогает принимать решения об увеличении производственных мощностей и изменениях в наборе продаваемых товаров
Прогнозирование облегчает определение объема рекламы и т. д.
Оптимистичные прогнозы ставят цели отделу продаж и мотивируют сотрудников на их достижение в течение заданного периода.
Прогноз продаж помогает в составлении графиков закупок.
1.2 Обзор литературы
В данном разделе будут приведены примеры исследований по проблеме прогнозирования продаж и сравнения разных моделей, а также их краткие результаты.
Alon [7] обнаружил, что экспоненциальная сглаживающая модель Винтера прогнозирует совокупную розничную продажу более точно, чем простые экспоненциальные модели и модели Холта, и что она точно прогнозирует продажи отдельных продуктов, продажи компаний, статьи о доходах и совокупные розничные продажи. Alon и Qi [8] сравнивали эффективность искусственных нейронных сетей (ANN) с традиционными моделями временных рядов, а именно: экспоненциальное сглаживание Винтера, модели ARIMA и многомерную регрессию, используя ежемесячные данные о совокупных розничных продажах для США. Их результаты, основанные на средней абсолютной процентной погрешности (MAPE) заключались в предположении, что методы ANN дали наилучшие результаты, поскольку они смогли «захватить динамический нелинейный тренд и сезонные паттерны, а также взаимодействия между ними».
Chu и Zhang [9] сравнили эффективность прогнозирования вне выборки линейных моделей (ARIMA с временными рядами, регрессию с фиктивными переменными и регрессию с тригонометрическими переменными) и нелинейных (нейронные сети) моделей сезонного прогнозирования для месячных совокупных розничных продаж в США с января 1985 года по декабрь 1999 года. Они обнаружили, что оценка нейронной сети, использующая данные без учета сезонных колебаний, превосходила остальные модели на основе трех показателей эффективности (среднеквадратичная ошибка [RMSE], средняя абсолютная ошибка [MAE] и средняя абсолютная процентная ошибка [MAPE]). Они также обнаружили, что, хотя сезонные фиктивные переменные могут быть полезны для прогнозирования розничных продаж, их производительность может быть ненадежной и что тригонометрические модели плохо применимы для прогнозирования совокупных розничных продаж.
Frank и др. [10], используя ежегодные данные США с 1997 по 2000 год о продажах женской одежды, оценивали эффективность прогнозирования трех различных моделей, а именно однократное сезонное сглаживание, трехпараметрическую модель Винтера и искусственные нейронные сети (ANN). Их результат показал, что ANN опередила две другие модели, основанные на оценке коэффициента детерминации (R2). Doganis и др. [11] представили эволюционную модель прогнозирования продаж, которая представляет собой комбинацию двух технологий искусственного интеллекта, а именно радиальной базисной функции и генетического алгоритма (GA-RBF). Эта методология была применена к данным о продажах свежего молока, предоставленных крупной производственной компанией ежедневной продукции в Греции, и результаты исследований различных составов модели были сопоставлены с линейными (AR, ARMA, RLS, Холта-Винтера) моделями. Их результаты показали, что адаптивная формулировка комбинированной модели нейронной сети имела наименьшую среднюю абсолютную процентную ошибку, что указывает на то, что модели, которые позволяют корректировать себя по мере поступления новой информации, способны прогнозировать продажи более точно. Chang и Wang [12] интегрировали нечеткую логику и искусственную нейронную сеть в сеть нечеткого обратного распространения (FBPN) для прогнозирования продаж в отрасли печатных плат (ПП) на Тайване. Результаты FBPN были сопоставлены с результатами прогнозирования Grey (GF), множественного регрессионного анализа (MRA) и сетей обратного распространения (BPNs). Экспериментальные результаты показывают, что нечеткий подход к обратному распространению превосходит другие три различные модели прогнозирования в показателях средней абсолютной процентной ошибки (MAPE).
Aburto and Weber [13] представили гибридную интеллектуальную систему, объединяющую модель ARIMA и нейронные сети на многослойных персептронах (MLP) для прогнозирования спроса, и обнаружили, что модель MLP превосходит модель ARIMA, в то время как гибридная модель превосходит отдельные модели на основе MAPE и нормированной средней квадратичной ошибке (MSE). Они также показали, что система пополнения чилийского супермаркета, основанная на улучшенной точности прогнозирования, одновременно привела к меньшему количеству сбоев продаж и снижению уровня запасов. Joseph и др. [14] рассмотрели прогнозы совокупных продаж с использованием 3-месячной процентной ставки по векселям казначейства в среде NeuroSolutions, ссылающейся на прогнозы моделей линейной регрессии. Использовались два типа динамических моделей нейронных сетей, прошедших обучение с использованием алгоритма обратного распространения Levenberg-Marquardt под контролируемым обучением. Модели нейронной сети превосходят модели линейной регрессии. Au и др. [15] иллюстрируют эволюционную сеть нейронов для прогнозирования продаж и показывает, что при управлении критерием Шварца и подходе предварительного поиска, не полностью связанная сеть нейронов может сходиться быстрее и точнее в прогнозировании временных рядов, чем полностью связанная нейронная сеть и традиционная модель SARIMA, основанная на критерии средней квадратичной ошибки. Sun и др. [16] также разработали различные модели прогнозирования продаж для розничной торговли одеждой в Гонконге. Они применили модель нейронной сети ELM для исследования взаимосвязи между объемом продаж и некоторыми значимыми факторами, которые влияют на спрос. Результаты показывают, что предлагаемые методы превосходят модель нейронной сети обратного распространения. Ali и др. [17] изучили компромисс между точностью прогнозирования и сложностью данных и модели в задаче прогнозирования продаж, стоящей перед розничной торговлей продуктами питания, с учетом широкого спектра сложности данных и технических характеристик. Результаты эксперимента показывают, что простые методы временного ряда очень хорошо работают для периодов без рекламных акций. Тем не менее, для периодов с рекламными акциями деревья регрессии с явными функциями существенно улучшают точность.
Chen and Ou [18] разработали модель прогнозирования GMFLN путем интеграции нейронных сетей GRA и MFLN. Экспериментальные результаты показывают, что предлагаемая модель прогнозирования превосходит модели прогнозирования MA, ARIMA и GARCH для розничных товаров.
Gil-Alana и др. [19] рассмотрели, можно ли лучше объяснить прогнозы розничной продажи с точки зрения модели, которая включает в себя как долгосрочную устойчивость, так и сезонные компоненты в рамках фракционной дифференциации, чем модели, которые используют целые степени дифференциации. Они обнаружили, что прогнозы розничных продаж лучше объясняются с точки зрения модели, которая включает в себя как постоянство, так и сезонные компоненты. Chen и Ou [18] разработали Грей-метод с моделью экстремального обучения (GELM) для прогнозирования будущих ежедневных продаж в розничной торговле свежими продуктами питания на Тайване. Используя статистику MSE и MAD, они показали, что модель GELM превосходит стандартную статистическую модель временного ряда, GARCH, а также две другие модели искусственной нейронной сети (GBPN и GMFLN). Ni и Fan [20] предложили двухэтапную модель динамического прогнозирования, которая представляет собой комбинацию модели АРТ и модели прогнозирования ошибок на основе нейронной сети для повышения точности прогнозирования розничной моды. Однако их результаты не сравниваются с другими прогнозирующими моделями.
Как видно из вышесказанного, большинство рассмотренных исследований подчеркивали важность различных форм моделей нейронных сетей (отсюда и нелинейность в целом) и сравнивали их прогнозы с несколькими линейными прогнозирующими моделями. Эти исследования оценивают прогнозы разных моделей с использованием стандартной функции потерь, что существенно сводит к минимуму среднеквадратичную ошибку, чтобы показать, что модели ANN в целом имеют тенденцию превосходить стандартные линейные модели.
1.3 Теоретические основы временных рядов и прогностических моделей
Временной ряд, в общем смысле, это совокупность значений какого-либо показателя за несколько последовательных периодов времени. Для каждого значения указано время измерения или его номер по порядку, таким образом временной ряд значительно отличается от обычной выборки данных, так как при анализе учитываются не только статистические характеристики, но и взаимосвязь значений со временем
Данные типа временных рядов широко распространены в самых разных областях человеческой деятельности. В экономике, к примеру, это курсы валют, ежедневные цены на акции, объемы продаж, годовые объемы производства и прочее. Как правило, анализ временных рядов ставит перед собой следующие цели:
Построение прогноза по будущим значениям, на основе настоящих и прошлых значений ряда
Описание особенностей, характерных для временного ряда
Подбор статистической модели для описания ряда
Управление процессом, который породил данный временной ряд
При изучении временного ряда, его разделяют на две составляющие: систематическую (детерминистскую) составляющую и случайную составляющую . Детерминистская часть, в свою очередь, включает в себя следующие элементы:
Тренд () - плавно изменяющаяся со временем компонента, описывающая влияние долговременных факторов, эффект которых сказывается постепенно (например, рост населения)
Сезонность () - компонента, описывающая регулярно меняющееся в течение некоторого периода поведение (например, продажи авиабилетов)
Цикличность () - компонента, описывающая длительные периоды роста и спада, и состоящая из циклов, которые меняются по протяженности и амплитуде.
Как правило, используют одну из двух форм временного ряда:
Аддитивную модель
Мультипликативную модель
Вторая модель более распространена в экономических приложениях и сводится к первой логарифмированием.
Стадии анализа временного ряда обычно включают в себя следующее:
Описание поведения ряда на основе графических представлений
Выделение и удаление закономерных составляющих: тренда, сезонности и цикличности.
Выделение и удаление низкочастотных или высокочастотных составляющих процесса
Исследование оставшейся случайной составляющей ряда
Описание случайной составляющей при помощи математической модели, проверка модели на адекватность
Прогнозирование развития процесса, породившего временной ряд
Также важным параметром временного ряда является его стационарность. Ряд называется стационарным, если он совершает колебания вокруг своего математического ожидания. С практической точки зрения стационарность ряда говорит об: отсутствии тренда, отсутствии строго периодических флуктуации, отсутствии систематических изменений дисперсии.
Для прогнозирования каких-либо показателей, основываясь на их прошлых значениях, часто используются авторегрессионные модели.
Модель авторегрессии AR (p) представляется в следующем виде:
,
где коэффициенты это параметры модели, причем
,
является условием стационарности; д - постоянная; - белый шум.
Модель скользящего среднего MA (q) выглядит следующим образом:
,
где коэффициенты это параметры модели; - постоянная; - белый шум. Очень популярна модель, объединяющая две предыдущие в одну - ARMA (p, q)
,
где условие стационарности выглядит следующим образом:
,
Данная модель позволяет составлять прогноз, зависящий как от текущего и прошлого значений зависимой переменной, так и от текущих и прошлых значений величины случайного возмущения.
При наличии единичных корней процесс становится нестационарным, в таких случая строится модель ARIMA (p, d, q), где d - порядок разностей исходного временного ряда. По своей сути, такая модель идентична процессу ARMA (p+d, q) с d единичными корнями.
В классические ARMA модели можно также добавить некоторые экзогенные факторы. В таком случае, в модели будут участвовать не только текущие значения этих факторов, но и лаговые значения. Такие модели принято обозначать ARMAX (p, q, k).
Другим видом моделей анализа временных рядов, часто использующихся для прогнозирования одного значения, являются ARCH модели. В этих моделях предполагается зависимость условной дисперсии от квадратов прошлых значений временного ряда. Чаще используются обобщенные ARCH модели, обозначающиеся GARCH. Обобщение в этих моделях подразумевает, что условная дисперсия зависит не только от квадратов прошлых значений ряда, но и также от прошлых значений самой условной дисперсии. Простейшую модель этого вида GARCH (1,1) можно записать так:
,
,
К достоинствам таких моделей можно отнести:
Они позволяют оценивать регрессии с не гауссовскими распределениями ошибок и при наличии тяжелых хвостов
Успешно справляются с сериальной корреляцией квадратов ошибок
1.4 Основы баз данных и хранилищ
Один из основных аспектов разработки аналитических моделей, в том числе прогностических, это правильная организация обработки, структурирования и хранения данных, на основе которых строятся модели. Особенно это важно для больших компаний, генерирующих огромное количество информации каждый день, при котором ведение данных вручную при помощи электронных таблиц и различных офисных пакетов практически невозможно. Подобные компании хотят интеграции аналитических и моделирующих инструментов со средствами, используемых для хранения данных. Поэтому, в области информационных технологий значительная часть проектов направлена на разработку и создание информационных систем, которые осуществляют обработку данных различной сложности. Практически во всех таких проектах решается задача проектирования баз данных определенного типа. Решение задачи проектирования повышает вероятность того, что разрабатываемая информационная система будет удовлетворять заданным функциональным и информационным требованиям с учетом заданных ограничений.
Для разработки базы данных приложения, необходимо формализовать структуру предметной области, сведения о которой предполагается хранить в этой базе. [21] Для этого используются реляционные базы данных, которые представляют структуру данных в виде совокупности таблиц, связанных отношениями. [22] Проектирование БД состоит из следующих этапов:
Этап инфологического проектирования. Модель предметной области выражается в терминах ER-модели (entity-relationship), где сущность (entity) определяется как дискретный объект, а связь (relationship) описывает отношение между двумя сущностями.
Даталогический этап. Модель данных представляется в виде двухмерных таблиц и описывается в терминах конкретной системы управления базами данных.
При работе с реляционными базами данных оперируют следующими понятиями:
Сущность - это реальный или абстрактный объект, информация о котором должна сохраняться и быть доступной. В физических моделях отображается как таблица, описывающая объект.
Атрибут - свойство некоторой сущности, физически является полем таблицы.
Кортеж - конечное множество взаимосвязанных допустимых значений атрибутов, которые вместе описывают экземпляр сущности (строка таблицы).
Первичный ключ - поле или набор полей, однозначно идентифицирующих запись. Первичный ключ должен быть минимально достаточным: в нем не должно быть полей, удаление которых из первичного ключа не отразится на его уникальности.
Внешний ключ - одно или несколько полей (столбцов) в таблице, содержащих ссылку на поле или поля первичного ключа в другой таблице.
Типы связей между таблицами:
«один-к-одному» - любому экземпляру главной таблицы может соответствовать только один экземпляр подчиненной таблицы, и наоборот.
«один-ко-многим» - любому экземпляру главной таблицы может соответствовать несколько экземпляров подчиненной таблицы, но любому экземпляру подчиненной таблицы соответствует только один экземпляр главной.
«многие-ко-многим» - любому экземпляру первой таблицы соответствует несколько экземпляров второй таблицы, и любому экземпляру второй таблицы соответствует несколько экземпляров первой таблицы.
При построении модели данных, отношения «многие-ко-многим» реализуются путём замены на связи «один-ко-многим» и использования ассоциативной таблицы, содержащей ключи родительских таблиц и дополнительные атрибуты.
Проектирование схемы БД должно решать задачи минимизации дублирования данных и упрощения процедур их обработки и обновления. При неправильно спроектированной схеме БД могут возникнуть аномалии модификации данных. Они обусловлены отсутствием средств явного представления типов множественных связей между объектами предметной области и неразвитостью средств описания ограничений целостности на уровне модели данных. Для решения подобных проблем проводится нормализация отношений.
Нормализация отношений - процесс преобразования отношений базы данных к виду, отвечающему так называемым нормальным формам. В теории реляционных баз данных обычно выделяют следующие нормальные формы:
Первая нормальная форма (1НФ) - базовая нормальная форма отношения в реляционной модели данных, которая требует, чтобы каждое поле таблицы БД было неделимым и не содержало повторяющихся групп.
Вторая нормальная форма (2НФ) требует, чтобы таблица находилась в 1НФ и все поля таблицы полностью зависели от первичного ключа, то есть первичный ключ должен однозначно определять запись.
Третья нормальная форма (3НФ) требует, чтобы таблица находилась во 2НФ, и чтобы значение любого поля, не входящего в первичный ключ, не зависело от значения любого другого поля, также не входящего в первичный ключ.
Четвертая нормальная форма (4НФ) подразумевает, что все таблицы базы данных находятся в 3НФ и, при этом, в БД не содержатся независимые группы атрибутов, между которыми существует отношение многие-ко-многим
Операционные базы данных крайне редко используются для непосредственного анализа, вместо этого создаются хранилища данных. Этому есть множество причин, но основными можно выделить следующие:
Структура БД может быть крайне обширной и детализированной, так как проектируется она в соответствии с бизнес-операциями. Поэтому использование предметно-ориентированных хранилищ значительно облегчает анализ, а также положительно сказывается на времени выполнения запросов.
Данные их хранилища намного удобнее анализировать, так как они представляют собой исходные данные операционной БД, только очищенные, отфильтрованные и доведенные до необходимой степени агрегации.
Как правило операционные базы данных хранят текущую информацию, сохраняя устаревшие данные в архив. Хранилище же собирает все исторические данные, что способствует полноте анализа.
Хранилище позволяет получать любую информацию о деятельности компании из одного источника, собирая необходимые данные из разрозненных операционных систем в один отчёт.
Хранилище данных -- это реляционная база данных, предназначенная для обработки запросов и анализа, а не для обработки транзакций. Она обычно содержит исторические данные, полученные из операционных баз, но может также включать данные из других источников. Хранилище отделяет процессы анализа от операционных процессов и позволяет организации консолидировать данные из нескольких источников.
В дополнение к реляционной базе данных среда хранилища данных включает в себя решение для извлечения, транспортировки, преобразования и загрузки информации (ETL), инструмент интерактивной аналитической обработки (OLAP), клиентские инструменты анализа и другие приложения, которые управляют процессом сбора данных и предоставляют его бизнес-пользователям.
Обобщённая схема архитектуры данных на предприятии изображена на рисунке 1.
Рисунок 1
Ещё одно важное отличие хранилища данных от операционной БД заключается в структуре таблиц. Для оптимизации обработки запросов и более эффективного анализа структура хранилищ является ненормализованной и обычно представляет собой схему типа «звезда» (см. рис. 2) или «снежинка». Подобные схемы делят данные на факты и измерения. Факты -- это, как правило, числовые значения некоторых показателей, таких как продажи или количество товара. Измерения -- это категории, которые используются для описания фактов, например дата, регион или продукт. Таблица фактов может содержать как детализированные факты, так и агрегированные данные. Таблицы фактов, содержащие агрегированные факты, часто называются сводными таблицами. Такие таблицы обычно содержат факты с одинаковым уровнем агрегации. Хотя большинство фактов являются аддитивными, они также могут быть полуаддитивными или неаддитивными. Аддитивные факты могут быть агрегированы простым арифметическим сложением. Общим примером этого являются продажи. Неаддитивные факты не могут быть добавлены вообще. Примером этого являются средние значения. Полуаддитивные факты могут быть агрегированы по некоторым конкретным измерениям, но не по другим. Примером этого могут служить уровни запасов, хранящиеся на физических складах, где есть возможность добавлять данные по измерению расположений склада, но агрегация во времени при этом невозможна.
Рисунок 2
Ключевым аспектом таблиц измерений является информация о иерархии, которую они предоставляют. Данные измерений обычно содержат строки для самого низкого уровня детализации плюс строки для агрегированных значений измерения. Эти естественные сводки или агрегаты в таблице измерений называются иерархиями и имеют большую ценность для анализа. Например, если необходимо рассчитать долю продаж, которую представляет конкретный продукт в своей категории товаров, гораздо проще и надежнее иметь предопределенную иерархию для агрегации продукта, чем указывать все элементы категории в каждом запросе. Поскольку информация о иерархии настолько ценна, обычно обнаруживается несколько иерархий, отраженных в таблице измерений. Таблицы измерений обычно содержат описательные текстовые поля, и их значения обычно используются в качестве заголовков строк, заголовков столбцов и заголовков страниц отчетов, генерируемых при помощи запросов. Хотя таблицы размеров имеют гораздо меньше строк, чем таблицы фактов, они могут быть довольно широкими, с десятками столбцов. Таблица измерения местоположения может содержать столбцы для каждого уровня иерархии, и может отображать сразу несколько уровней в таблице. Таблица местоположения может иметь столбцы, отвечающие за географические данные, такие как адрес улицы, почтовый индекс, город, штат, провинция и страна. При этом, та же таблица может включать иерархию, описывающую организацию сбыта, например иметь столбцы для района продаж, территорию продаж, регион продаж и характеристики.
Схемы типа «снежинка» нормализуют таблицы измерений, чтобы исключить избыточность. То есть данные измерений записываются в несколько таблиц вместо одной большой таблицы. Например, таблица продуктов в схеме «звезда» может быть нормализована путём разбиения на три таблицы: таблицу товаров, таблицу категорий товара и таблицу производителей в схеме снежинки. Хотя такой подход экономит место, он увеличивает количество таблиц измерений и требует большего количества внешних ключей. Результатом этого являются более сложные запросы и снижение их производительности. Пример схемы типа «снежинка» приведен на рисунке 3.
Для сбора данных из разных источников и загрузки в хранилище обычно используются ETL-процедуры. Они подразумевают под собой 3 типа задач:
Рисунок 3
Извлечение данных (Extracting). Процесс извлечения включает в себя идентификацию и извлечение данных из всех источников, задействованных в бизнес-процессах, что включает в себя как приложения, так и системы баз данных. Часто конкретные области, представляющие интерес, не могут быть идентифицированы сразу, а это означает, что необходимо извлечь больший объем данных. В этом случае возможно определить релевантные для хранилища данные позже. Кроме того, возможно, что на этом этапе будут завершены некоторые процессы трансформации. Это во многом зависит от возможностей исходной системы и специфики конкретных бизнес-процессов. Процесс экстракции может занимать от нескольких дней и часов до работы в режиме реального времени.
Преобразование данных (Transforming). После процесса извлечения данные обрабатывают для его перемещения в целевую систему или систему удержания. Трансформации могут быть выполнены на этом этапе, в зависимости от способа транспортировки. Во время преобразования к извлеченным данным применяются различные функции, чтобы подготовить их к загрузке в конечную структуру. Трансформация также включает очистку данных, так что в хранилище передаются только релевантные для анализа данные. Некоторые данные трансформации не требуют.
Загрузка данных (Loading). Фаза загрузки в ETL-процессе отвечает за перемещение данных в конечную структуру - обычно это хранилище данных. В зависимости от конкретных требований организации этот процесс может изменяться. В некоторых хранилищах данных существующая информация проходит через процесс перезаписи, чтобы включить кумулятивную информацию. Это может означать обновление извлеченных данных ежедневно, еженедельно или ежемесячно. Другие типы хранилищ данных добавляют новые данные через регулярные промежутки времени в историческую форму. Как часто и сколько данных заменяется или добавляется, во многом зависит ресурсов и бизнес- потребностей. А так как фаза загрузки процесса ETL взаимодействует с базой данных, применяются ограничения, определенные в схеме базы данных, а также триггеры, активирующиеся при загрузке, что также способствует улучшению общего качества данных.
Итак, в первой главе ВКР была рассмотрена задача прогнозирования продаж и её важность для бизнеса, описано несколько исследований различных авторов, посвящённых построению прогноза продаж, приведены основы временных рядов и прогнозирующих моделей, таких как ARMA, ARMAX, ARCH и GARCH, а также теоретические основы баз данных и хранилищ данных.
Глава 2. Постановка задачи и инструментальные средства
2.1 Задачи и требования
Целью данной работы является построение прогнозной модели для конкретной торговой сети. При этом, ввиду ориентированности разрабатываемой модели на бизнес, к самой модели и к инструментарию были выдвинуты следующие требования:
Функциональные требования:
Необходима интеграция с корпоративным источником данных. Так как использование модели предполагается в бизнес-среде, данные о продажах должны поступать из базы данных или хранилища, функционирующего на предприятии. Таким образом, необходимо также разработать структуру хранилища из которого будут поступать данные для анализа.
Инструмент моделирования должен также давать возможность предобработки, чистки и агрегирования данных.
Процесс анализа данных должен программироваться посредством визуального интерфейса, а не путём написания программного кода вручную. Это обусловлено тем, что сотрудник-аналитик должен иметь возможность корректировать модель под обновляющиеся данные, не имея при этом обязательных навыков программирования.
Необходимо иметь возможность в любой момент пересчитать модель на новых данных и получить максимально подходящую модель по конкретной выборке.
Технические требования:
Доверенный интервал не меньше 95%
Необходимо автоматическое определение выбросов и их исключение
Так как прогноз должен строиться для торговой сети, необходимо разработать отдельную прогностическую модель продаж для каждого магазина.
Модель должна учитывать доступные внешние факторы, если они положительно влияют на точность прогноза.
2.2 Описание исходных данных
В данном исследовании анализируется набор данных, предоставленный в открытый доступ компанией Walmart. Walmart Inc. - американская многонациональная розничная корпорация, которая управляет сетью гипермаркетов, дисконт-универмагов и продуктовых магазинов. Штаб-квартира компании находится в Бентонвилле, штат Арканзас, компания была основана Сэмом Уолтоном в 1962 году и зарегистрирована 31 октября 1969 года. По состоянию на 31 января 2018 года Walmart имеет 11 718 магазинов и клубов в 28 странах, работающих под 59 различными именами. Компания работает под именем Walmart в США и Канаде, как Walmart de Mйxico y Centroamйrica в Мексике и Центральной Америке, как Asda в Соединенном Королевстве, как Seiyu Group в Японии и как Best Price в Индии. [23]
Walmart - крупнейшая компания в мире по объему выручки - примерно 480 миллиардов долларов США по списку Fortune Global 500 в 2016 году, а также крупнейший частный работодатель в мире с 2,3 миллионами сотрудников. Это публично торгуемый семейный бизнес, поскольку компания контролируется семьей Уолтонов. Наследники Сэма Уолтона владеют более 50 процентов Walmart через свою холдинговую компанию Walton Enterprises и через свои индивидуальные холдинги. Walmart был крупнейшим продуктовым магазином в США в 2016 году, а 62,3 процента продаж Walmart в размере 478,614 млрд. долл. США приходилось на операции в США. [23]
Данные, предоставленные компанией Walmart, содержат данные о прошлых продажах в 45 магазинах компании, расположенных в разных регионах и включающих в себя несколько отделов, в период с 05.02.2010 по 01.11.2012. Данные представлены в трёх таблицах и содержат следующие поля:
train.csv
Store - идентификационный номер конкретного магазина
Dept - номер отдела в конкретном магазине
Date - дата наблюдения
Weekly_Sales - продажи конкретного отдела в конкретном магазине, за всю неделю от даты наблюдения
IsHoliday - параметр, определяющий есть ли на текущей неделе праздничный день
features.csv
Store - идентификационный номер конкретного магазина
Date - дата наблюдения
Temperature - средняя температура в регионе на данной неделе
Fuel_Price - цена на топливо в данном регионе
CPI - индекс потребительских цен
Unemployment - уровень безработицы в регионе
MarkDown1-5 - пять полей, содержащие анонимизированные данные, связанные с рекламными акциями и скидками, которые запускались в Walmart. Данные MarkDown доступны только после ноября 2011 года и доступны не для всех магазинов все время. Любое отсутствующее значение отмечено NA.
IsHoliday - параметр, определяющий есть ли на текущей неделе праздничный день
store.csv
Store - идентификационный номер магазина
Type - некий тип (A, B или C), присвоенный данному магазину
Size - размер данного магазина
2.3 Структура обработанных данных
Средством для работы с базами данных был выбран Microsoft SQL Server. Microsoft SQL Server -- это система управления реляционными базами данных, разработанная компанией Microsoft. Представляет собой сервер баз данных - программный продукт с основной функцией хранения и извлечения данных по запросу других программных приложений, которые могут запускаться либо на том же компьютере, либо с другой машины по сети. Microsoft продает не менее десятка различных выпусков Microsoft SQL Server, предназначенных для разных аудиторий и рабочих нагрузок: начиная от небольших однопроцессорных приложений и заканчивая большими системами, ориентированными на Интернет, со множеством параллельных пользователей.
Microsoft SQL Server позволяет выполнять следующие задачи:
Создание баз данных
Поддержка базы данных
Анализ данных посредством служб анализа SQL Server (SSAS)
Создание отчетов через службы отчетов SQL Server (SSRS)
Выполнение операций ETL через службы интеграции SQL Server (SSIS)
Для начала, была сформирована база данных на основе исходных таблиц, для хранения данных в том виде, в котором они предоставлялись. (см. Рисунок 4). Несмотря на то, что было принято решение обрабатывать и чистить данные в инструменте анализа, такие поля как MarkDown1, MarkDown2, MarkDown3, MarkDown4 и MarkDown5 были отфильтрованы ещё на этапе загрузки в базу данных. Это произошло ввиду того, что в более чем 60% наблюдений значения в этих полях отсутствовали. Тем более, так как эти поля являются анонимизированными, природа их значений не была бы понятна при анализе.
Рисунок 4
Итак, в исходную базу данных вошли следующие таблицы и поля:
Stores - таблица, содержащая информацию о магазинах (Таблица 1).
Таблица 1
Название атрибута |
Тип данных |
Описание |
|
Store (PK) |
int |
Номер магазина |
|
Type |
nchar (10) |
Одна из трёх категорий магазинов |
|
Size |
bigint |
Размер магазина |
Features - таблица, содержащая данные о внешних факторах, зафиксированных в конкретном магазине на конкретной неделе (Таблица 2).
Таблица 2
Название атрибута |
Тип данных |
Описание |
|
Store (PK) |
int |
Номер магазина |
|
Date (PK) |
date |
Дата начала недели, за которую считались продажи конкретного отдела. |
|
Temperature |
float |
Усредненная температура воздуха в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
Fuel_Price |
float |
Цена на топливо в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
Unemployment |
float |
Уровень безработицы в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
CPI |
float |
Индекс потребительских цен в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
IsHoliday |
bit |
Параметр, указывающий, есть ли на неделе наблюдения государственные праздники. |
Train - таблица, содержащая данные о продажах конкретного отдела в конкретную неделю (Таблица 3).
Таблица 3
Название атрибута |
Тип данных |
Описание |
|
idStore (PK) |
int |
Номер магазина |
|
Date |
date |
Дата начала недели, за которую считались продажи конкретного отдела. |
|
Dept |
int |
Номер отдела, для которого считались продажи |
|
Weekly_Sales |
float |
Продажи в данном магазине, в данном отделе за всю неделю от даты наблюдения |
|
IsHoliday |
bit |
Параметр, указывающий, есть ли на неделе наблюдения государственные праздники. |
Далее, для более удобного анализа каждого параметра в отдельности и корректной интеграции с инструментом моделирования разрабатывалось хранилище данных. Каждый внешний фактор был выделен в отдельный справочник или таблицу измерения. Была разработана структура хранилища, которая выглядит следующим образом (см. Рисунок 5). Хранилище включает в себя 6 таблиц измерений и 1 таблицу фактов. Таблица времени в данном случае не использовалась, так как временные промежутки уже были унифицированы в исходных данных и равны 1 неделе.
Хранилище включает в себя следующие таблицы:
dimStore - таблица измерения, содержащая в себе справочник магазинов. (см. Таблицу 4)
Рисунок 5
Таблица 4
Название атрибута |
Тип данных |
Описание |
|
idStore (PK) |
int |
Первичный ключ таблицы - номер магазина |
|
Type |
char (1) |
Одна из трёх категорий магазинов |
|
Size |
bigint |
Размер магазина |
dimDepartment - таблица измерения, содержащая в себе справочник отделов. (см. Таблицу 5)
Таблица 5
Название атрибута |
Тип данных |
Описание |
|
idDepartment (PK) |
int |
Первичный ключ таблицы - номер отдела в конкретном магазине |
|
idStore (FK) |
int |
Номер магазина, часть которого является данный отдел. Внешний ключ, часть составного ключа таблицы |
|
Sales |
float |
Продажи в данном магазине, в данном отделе за всю неделю от даты наблюдения |
|
Date |
date |
Дата начала недели, за которую считались продажи конкретного отдела. Часть составного ключа таблицы |
dimFuelPrice - таблица измерения, содержащая в себе справочник цен на топливо по неделям. (см. Таблицу 6)
Таблица 6
Название атрибута |
Тип данных |
Описание |
|
idStore (PK) |
int |
Номер магазина, для которого собиралось наблюдение, часть составного ключа таблицы. |
|
Date (PK) |
date |
Дата начала недели, для которой было записано наблюдение. Часть составного ключа таблицы |
|
FuelPrice |
float |
Цена на топливо в том регионе, к которому привязан данный магазин, в конкретную неделю. |
dimUnemployment - таблица измерения, содержащая в себе справочник индексов безработицы по неделям. (см. Таблицу 7)
Таблица 7
Название атрибута |
Тип данных |
Описание |
|
idStore (PK) |
int |
Номер магазина, для которого собиралось наблюдение, часть составного ключа таблицы. |
|
Date (PK) |
date |
Дата начала недели, для которой было записано наблюдение. Часть составного ключа таблицы |
|
Unemployment |
float |
Уровень безработицы в том регионе, к которому привязан данный магазин, в конкретную неделю. |
dimTemp - таблица измерения, содержащая в себе справочник температур воздуха по неделям. (см. Таблицу 8)
Таблица 8
Название атрибута |
Тип данных |
Описание |
|
idStore (PK) |
int |
Номер магазина, для которого собиралось наблюдение, часть составного ключа таблицы. |
|
Date (PK) |
date |
Дата начала недели, для которой было записано наблюдение. Часть составного ключа таблицы |
|
Temperature |
float |
Усредненная температура воздуха в том регионе, к которому привязан данный магазин, в конкретную неделю. |
dimCPI - таблица измерения, содержащая в себе справочник индексов потребительских цен по неделям. (см. Таблицу 9)
Таблица 9
Название атрибута |
Тип данных |
Описание |
|
idStore (PK) |
int |
Номер магазина, для которого собиралось наблюдение, часть составного ключа таблицы. |
|
Date (PK) |
date |
Дата начала недели, для которой было записано наблюдение. Часть составного ключа таблицы |
|
CPI |
float |
Индекс потребительских цен в том регионе, к которому привязан данный магазин, в конкретную неделю. |
FactSales - таблица фактов, объединяющая в себе справочники и содержащая информацию о продажах в каждом отделе каждого магазина в конкретную неделю. (см. Таблицу 10)
Таблица 10
Название атрибута |
Тип данных |
Описание |
|
idStore (PK) |
int |
Номер магазина, для которого записан факт |
|
Type |
char (1) |
Категория, к которой относится данный магазин |
|
Size |
bigint |
Размер магазина |
|
Date |
date |
Дата начала недели, за которую считались продажи конкретного отдела. |
|
Department |
int |
Номер отдела, для которого считались продажи |
|
Sales |
float |
Продажи в данном магазине, в данном отделе за всю неделю от даты наблюдения |
|
FuelPrice |
float |
Цена на топливо в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
Unemployment |
float |
Уровень безработицы в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
Temperature |
float |
Усредненная температура воздуха в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
CPI |
float |
Индекс потребительских цен в том регионе, к которому привязан данный магазин, в конкретную неделю. |
|
IsHoliday |
bit |
Параметр, указывающий, есть ли на неделе наблюдения государственные праздники. |
Для загрузки данных в хранилище и преобразования типов некоторых полей были разработаны ETL-процедуры. Общий поток данных выглядит следующим образом (Рисунок 6):
Рисунок 6
В данном ETL-процессе реализован подход, при котором хранилище периодически очищается и полностью обновляется данными из базы, за это отвечает узел «Очистка». Далее следует последовательная загрузка измерений. В другом случае она могла бы быть параллельной, но так как в исходном наборе данных ключей у измерений не предусмотрено, ключами являются номер магазина и дата, поэтому сперва необходимо загрузить справочники с этими данными, а после загружать остальные. В каждой ETL-операции по загрузке изменения выбирается источник данных, целевая база и таблица, а также прописываются сопоставления полей исходных и конечных таблиц (см. рис 7).
Рисунок 7
После заполнения всех таблиц измерений следует заполнение таблицы фактов, посредством «сливания» данных из справочников по ключам в одну таблицу (см. рисунок 8). Таблицы по очереди соединяются друг с другом и находятся соответствия, вследствие чего создаётся некий мэппинг (см. рисунок 9).
Рисунок 8
Рисунок 9
Таким образом, создано хранилище данных, которое уже будет непосредственно подключаться к инструменту моделирования IBM SPSS Modeler.
2.4 Среда анализа IBM SPSS Modeler
IBM SPSS Modeler - это набор инструментов для интеллектуального анализа данных, которые позволяют быстро разрабатывать прогностические модели с использованием бизнес-экспертизы и внедрять их в бизнес-процессы для улучшения принятия решений. IBM SPSS Modeler, разработанная с учетом стандартной методологии CRISP-DM (Cross-Industry Standard Process for Data Mining), поддерживает весь процесс интеллектуального анализа данных - от обработки «сырых» данных до улучшения бизнес-результатов.
IBM SPSS Modeler предлагает множество методов моделирования, взятых из машинного обучения, искусственного интеллекта и статистики. Данные методы позволяют получать новую информацию из данных и разрабатывать прогностические модели. Каждый метод имеет определенные преимущества в той или иной ситуации, и лучше всего подходит для определенных типов проблем.
Рисунок 10
Уникальный графический интерфейс в IBM® SPSS® Modeler основан на узлах и потоках. Узлы -- это значки или формы, которые представляют отдельные операции над данными. Узлы соединены вместе в цепь операций, которая называется поток, для представления всего процесса прохождения данных через каждую операцию.
Алгоритмы представлены узлом специального типа, который называется узел моделирования. Для каждого алгоритма, поставляемого IBM SPSS Modeler, существует собственный узел моделирования. Моделирующие узлы обычно изображаются в виде пятиугольника.
Другие типы узлов включают в себя узлы источников, узлы процессов и выходные узлы. Узлы источников или исходные узлы - это те, которые загружают данные в поток и всегда располагаются в начале потока. Процессные узлы выполняют операции с отдельными записями и полями данных и обычно находятся в середине потока. Выходные узлы производят множество выходных данных, диаграмм и результатов модели, а также позволяют экспортировать результаты в другие приложения, например базы данных или электронные таблицы. Выходные узлы обычно отображаются как последний узел в потоке или ветке потока.
При запуске потока, содержащего узел моделирования, результирующая модель автоматически добавляется в поток и представляет собой специальный тип узла, изображающийся в интерфейсе как золотой самородок.
Интуитивно понятный графический интерфейс IBM SPSS Modeler позволяет пользователям визуализировать каждый шаг процесса интеллектуального анализа данных как часть потока. Взаимодействуя с этими потоками, аналитики и бизнес-пользователи могут работать сообща, что позволяет привнести бизнес-знания и экспертизу в предметной области в задачу поиска инсайтов. Пользователи могут сосредоточиться на поиске идей, а не на технических задачах, таких как написание кода.
Итак, во второй главе была поставлена задача и разработаны функциональные и технические требования к решению, были описаны данные в их исходном виде, а также процесс их обработки и приведения их в структуру, считываемую моделирующим инструментом, а именно: построение базы данных и хранилища данных, ETL-процесс. Глава также включает в себя краткое описание инструмента, выбранного для анализа и моделирования - IBM SPSS Modeler.
Подобные документы
Нейронные сети как средство анализа процесса продаж мобильных телефонов. Автоматизированные решения на основе технологии нейронных сетей. Разработка программы прогнозирования оптово-розничных продаж мобильных телефонов на основе нейронных сетей.
дипломная работа [4,6 M], добавлен 22.09.2011Разработка системы прогнозирования временных рядов динамики продаж товаров с учетом факторов влияния ForExSal, предназначенной для определения краткосрочного прогноза предполагаемого спроса. Анализ концептуальной и функциональной схемы работы системы.
отчет по практике [1,9 M], добавлен 27.03.2011Анализ деятельности торговой точки для возможного улучшения работы. Структурные функциональные методы проектирования. Разработка систем информационных моделей с использованием инструментальных средств CA Erwin Process Modeler, AllFusion Process Modeler.
курсовая работа [536,6 K], добавлен 14.12.2011"Наивная" модель прогнозирования. Прогнозирование методом среднего и скользящего среднего. Метод опорных векторов, деревьев решений, ассоциативных правил, системы рассуждений на основе аналогичных случаев, декомпозиции временного ряда и кластеризации.
курсовая работа [2,6 M], добавлен 02.12.2014Разработка клиент-серверного приложения, определяющего объемы закупок товаров; автоматизация построения тренда с целью уменьшения затрат времени на прогнозирование объемов продаж. Программная реализация: структура базы данных, интерфейс программы.
курсовая работа [3,0 M], добавлен 23.05.2013Розничная торговля компьютерами и телефонами с использованием сети Интернет как основное направление деятельности компании ООО "CityLink". Алгоритм процесса продаж в Интернет-магазине. Сбор и анализ данных о функционировании объекта исследования.
дипломная работа [817,7 K], добавлен 22.11.2015Прогнозирование на фондовом рынке с помощью нейронных сетей. Описание типа нейронной сети. Определение входных данных и их обработка. Архитектура нейронной сети. Точность результата. Моделирование торговли. Нейронная сеть прямого распространения сигнала.
дипломная работа [2,7 M], добавлен 18.02.2017Описание торговой сети, сбор данных, которые должны содержаться в базе данных. Определение сущностей и атрибутов и построение концептуальной модели. Переход к физической модели. Определение таблиц, полей и типов данных. Определение связей между таблицами.
курсовая работа [1,5 M], добавлен 31.03.2015Анализ деятельности компании в целом и отдела продаж в частности. Описание состояния информационной системы предприятия. Декомпозиция бизнес-процессов, протекающих в отделе продаж. Проектирование информационной системы, ее программное обеспечение.
дипломная работа [2,4 M], добавлен 29.08.2014Проектирование и моделирование линейной вычислительной сети многоэтажного здания. Улучшение производительности LAN посредством VLAN. Настройка QoS в существующей сети. Проектирование Wireless Lan и управление доступом к среде передачи. Описание симуляции.
дипломная работа [2,6 M], добавлен 10.07.2017