Поиск паттернов потребительского поведения в кросс-продажах: случай вина и сыра

Анализ потребительского поведения как один из ключевых видов деятельности компаний в сфере розничной торговли. Понятие и алгоритм поиска ассоциативного правила. Вкусовые сочетания: пара вина и сыра. Паттерн-майнинг как механизм увеличения кросс-продаж.

Рубрика Маркетинг, реклама и торговля
Вид дипломная работа
Язык русский
Дата добавления 14.07.2020
Размер файла 409,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Выпускная квалификационная работа

Поиск паттернов потребительского поведения в кросс-продажах: случай вина и сыра

Введение

продажа ассоциативный поведение потребительский

Анализ потребительского поведения является одним из ключевых видов деятельности компаний в сфере розничной торговли. Подобные исследования часто проводятся крупными предприятиями в целях оптимизации продуктового ассортимента и качества выкладки товаров. Кроме того, поведение покупателей исследуется в процессе разработки маркетинговых программ (Sarath & Ravi, 2013). Такие исследования часто основаны на ассоциативных правилах и сочетаемости товаров. Примером такого правила может послужить классическое сочетание голубых сыров с плесенью и десертных вин.

Выявление паттернов поведения покупателей не только дает возможность лучше удовлетворить потребности клиентов, но и позволяет предсказывать собственные. Кроме того, знание потребительских привычек дает компании возможность увеличения прибыли за счет кросс-продаж и позволяет прогнозировать запасы на складе. Качественная модель взаимодействия с клиентами предполагает оперативную реакцию на изменение рыночных условий. Так, под воздействием запрета на импорт определенного товара, одной из ключевых составляющих успеха ритейлера является способность быстро предоставить потребителям товар-субститут.

В рамках данного исследования предполагается ответить на вопрос: «Какие существуют типичные паттерны потребительского поведения при покупке вина и сыра в гипермаркете?» Кроме того, в ходе работы предполагается оценить, как менялась модель потребительского поведения при изменении ассортимента в гипермаркете в первые месяцы после введения программы импортозамещения. В рамках исследования будут проанализированы две выборки - до и после введения запрета на импорт определенных товаров со стороны Правительства России. Получившиеся ассоциативные правила предполагается сравнить между собой и выявить различия, либо убедиться в их отсутствии.

В соответствии с целью исследования необходимо решить следующие задачи:

1) Поиск паттернов потребительского поведения по данным о транзакциях гипермаркета

2) Сравнение различных подходов к поиску ассоциативных правил

3) Поиск различий в паттернах потребительского поведение до и после введения санкций

4) Анализ полученных результатов

Большая часть работ по этой теме использовали для проверки своих алгоритмов поиска паттернов потребительского поведения синтетические базы данных, в рамках данной работы будет проведен анализ реальных данных о транзакциях гипермаркета крупной торговой сети и сопоставлены результаты использования различных механизмов паттерн майнинга.

В рамках исследования будут использованы данные по чекам крупного гипермаркета "Семья", расположенного по адресу г. Пермь, ул. Революции, 13. Данные включают в себя чеки за период с 01.01.2014 по 01.04.2015 и представляют собой repeated cross-section.

1. Обзор литературы

1.1 Определение ассоциативного правила

Анализ рыночной корзины представляет собой однин из популярных методов количественного анализа в экономике и бизнесе, главным инструментом которого является поиск ассоциативных правил. Данные правила определяют наличие связей между фактами покупки определенных товаров. Другими словами, поиск ассоциативных правил происходит из предположения о том, что если какие-то категории товаров в большинстве транзакций встречаются совместно, то возможно между ними возможно наличие ассоциативных связей. Эти связи определяются и количественно описываются при помощи ассоциативных правил (Agrawal & Srikant, 1994).

Современные CRM-системы позволяют предпринимателям собирать и консолидировать информацию о клиентах, их обращениях и потребленных услугах. Эти данные могут быть использованы для поиска полезных для бизнеса ассоциаций. Ассоциативные правила впервые были опробованы в розничной торговле при поиске совместно покупаемых товаров, но это не единственное их возможное применение. Ассоциативные правила используются в сегментации покупателей по поведению при покупках, анализе предпочтений клиентов, кросс-маркетинге, при составлении адресной рассылки, в медицине при определении влияния побочных эффектов лекарств и при прогнозировании сбоев телекоммуникационного оборудования. (Данько & Скоробогатых, 2005).

Базовым понятием в теории ассоциативных правил является транзакция - некоторое множество событий, происходящих совместно. Например, если в 90 из 100 транзакций наблюдается совместное появление товаров A и B, то можно предположить, что появление в транзакции товара A влечет за собой появление товара B. Следовательно, приобретение покупателем товара A каким-то образом влияет на вероятность покупки товара B, а соответствующее правило формулируется в виде «Если A, то B» (A>B).

На основании этого правила, можно выработать решения, позволяющие повысить продажи и получить дополнительную прибыль - например, всегда иметь в ассортименте оба этих товара, предлагать их покупателям совместно или размещать в торговом зале рядом. Такое правило может отражать некоторый поведенческий аспект: при покупке чая клиент, увидевший конфеты рядом на полке магазина, с большей вероятностью приобретет их (Agrawal et. al., 1993).

1.2 Алгоритмы поиска ассоциативных правил

Ассоциативные правила описывают связь между наборами предметов, соответствующими условию и следствию. Эта связь характеризуется двумя показателями - поддержкой (support) и достоверностью (confidence).

Поддержка ассоциативного правила - это число транзакций, которые содержат как условие, так и следствие. Рассчитывается по формуле:

S (A > B) = NAB /N,

где NAB - количество транзакций, содержащих товары A и B, N - общее количество транзакций.

Достоверность ассоциативного правила A > B представляет собой меру точности правила и определяется как отношение количества транзакций, содержащих и условие, и следствие (NAB), к количеству транзакций, содержащих только условие (NA): C (A > B) = NAB/NA (Agrawal et. al., 1993).

Если показатели поддержки и достоверности достаточно высоки, можно с большой вероятностью утверждать, что любая будущая транзакция, которая включает условие, будет также содержать и следствие.

В процессе поиска ассоциативных правил происходит обнаружение ассоциаций, поддержка и достоверность для которых превышают заданный минимум. Простейший алгоритм поиска ассоциативных правил рассматривает все возможные комбинации условий и следствий, оценивает для них поддержку и достоверность, а затем исключает те ассоциации, которые не удовлетворяют заданным ограничениям. Однако число возможных ассоциаций с увеличением числа предметов или услуг растет экспоненциально. Поэтому применяются методики, которые позволяют уменьшить количество ассоциаций, которое требуется проанализировать.

Одной из наиболее распространенных является методика, основанная на обнаружении часто встречающихся наборов. На этой концепции основан один из первых алгоритмов поиска ассоциативных правил «Apriori» (Agrawal et al., 1993). Алгоритм состоит из двух шагов:

1. Поиск часто встречающихся наборов товаров, то есть тех наборов с поддержкой больше заданного порогового значения или равной ему. Под частотой понимается количество транзакций, в которых содержится данный предметный набор.

2. На основе найденных часто встречающихся наборов генерируются ассоциативные правила, удовлетворяющие условиям минимальной поддержки и достоверности.

В ходе работы алгоритм Apriori использует свойство антимонотонности, которое утверждает, что если предметный набор A не является частым, то добавление некоторого нового предмета B к набору A не делает его более частым. Это свойство позволяет значительно уменьшить пространство поиска ассоциативных правил.

В рамках использования механизмов паттерн майнинга возникает необходимость ранжирования этих правил с точки зрения их практической полезности для конкретного бизнеса. Различные механизмы поиска паттернов имеют в своей основе различные по своей сути алгоритмы и способны предоставить разную информацию для бизнеса. Выявление наиболее интересных правил - это одна из главных задач при интерпретации результатов работы алгоритма по вычислению ассоциативных зависимостей.

В связи с этим, все множество ассоциативных правил принято делить на три вида: интересные, тривиальные и неопределенные (непонятные). Первые содержат полезную информацию, которая ранее была неизвестна, но имеет логичное объяснение. Тривиальные правила - это легко объяснимые ассоциации, которые уже известны. Непонятные правила содержат информацию, которая не может быть объяснена. Они могут быть получены или на основе аномальных значений, или глубоко скрытых закономерностей, для лучшего понимания которых требуется дополнительный анализ.

Обычно количество правил ограничивают установкой параметров минимальной и максимальной поддержки (minsupport; maxsupport) и минимальной и максимальной достоверности (minconfidence; maxconfidence). В ходе анализа полученных паттернов наибольший интерес будут представлять ассоциации с наибольшими значениями этих показателей.

Minimum support определяет минимально допустимое количество повторений определенного набора товаров. В случае если minimum support слишком низкий априорный алгоритм может сгенерировать очень большое количество правил, среди которых в последствие будет необходимо выбирать полезные. Minimum confidence определяет минимально допустимую частоту повторения правила. Так, например, асссоциативное правило вино - сыр (support=20% confidence =75%) значит, что 20% потребителей покупают вино и сыр вместе и те, кто покупают делают это в 75% случаев.

В связи с тем, что алгоритмы могут генерировать большое количество правил в зависимости от выбранного алгоритма и вводных параметров, появились исследования описывающие метрики проверки качества полученных ассоциативных правил (Lenca et. al., 2007). Эти метрики представляют собой адаптивные метрики качества ассоциативных правил (association rule interestingness measures). Авторы составили экперементальную градацию 20 мер, рассмотренных в исследовании, основываясь на результате тестирования этих мер на 10 базах данных. Для проверки качества полученных правил рассмотрены как классические статистические меры таких как хи-квадрат для независимости и коэффициент корреляции, так и дополнительные меры для специфических нужд, такие как the lift, relative interestingness, general measure и другие.

Существуют альтернативные правила поиска ассоциативных правил, которые не предполагают использования таких метрик, как support и confidence. Метод бинарного роя частиц (binary particle swarm optimization (BPSO)) выделяет N наилучших правил по данным, а качество полученных правил проверяет fitness-функция (Sarath & Ravi, 2013). Авторы выделяют преимущества этого алгоритма перед априорным, среди которых отсутствие необходимости определять минимальный уровень support и confidence и выбирать лучшие правила. BPSO не генерирует избыточных правил и, в отличие от Apriori, который генерирует только правила с одинаковой длиной набора элементов, настоящий алгоритм создает правила с переменной длиной набора элементов.

Кроме того, авторы отмечают, что настоящий алгоритм использует меньше процессорного времени для генерации правил ассоциации из больших наборов данных. К недостаткам этого алгоритма авторы относят необходимость указывать количество лучших правил, которое будет сгенерировано.

Кроме того, существуют исследования позволяющие оценить полезность применения конкретного правила для бизнеса (Lee et. al., 2011, 2013). High-utility rule mining (HURM) рассматривает utility как меру практической полезности правила для бизнеса (Lee et. al., 2011). Полезность правила выражается в виде RUF-функции (rule utility function), которая состоит из трех элементов - возможность (opportunity), эффективность (effectiveness) и вероятность (probability), которые определяются в зависимости от целей исследования. Данный подход предполагает, что даже одно и то же правило может иметь разные утилиты в зависимости от того, насколько хорошо это правило соответствует конкретной бизнес-цели (Lee et. al., 2011).

На основе HURM-подхода был создан новый двухфазный алгоритм, в основе которого два типа стратегий. Одна предназначена для причин, а другая - для следствий ассоциативных правил. Двухфазная стратегия позволяет процессам HURM эффективно сокращать усилия по обработке большого количества правил, устраняя причины и следствия, которые не могут иметь высокие значения полезности (Lee et. al., 2013).

Альтернативным подходом для учета ценности правила для бизнеса является микроэкономическая модель PROFSET (model for product selection). Модель позволяет интегрировать как количественные, так и качественные критерии, а также микроэкономические показатели. В работе показано, что с помощью частых наборов товаров можно определить потенциал перекрестных продаж продуктов, а влияние решений об ассортименте продукции на общую прибыльность можно оценить с помощью анализа чувствительности (Brijs et. al, 2004).

Ограничение применения этого подхода заключается в том, что данная модель предполагает, что когда для набора товаров из двух позиций модель не выбирает хотя бы один из из них, вся прибыль, связанная с этим набором товаров, будет потеряна. Это не всегда отражает реальные потребительские привычки, поскольку покупатели не всегда намеренно покупают определенные комбинации продуктов, однако упущенная выгода, рассчитанная в соответствии с текущим допущением, будет представлять собой наихудший сценарий для продавца, верхнюю границу потерь, что даст продавцу новую полезную информацию для ведения бизнеса.

Алгоритмы поиска ассоциаций, устойчиых во времени (temporal pattern mining) позволяют получить новую информацию о том, какие переменные в данных вероятно будут демонстрировать какие-либо корреляции или причинно-следственные связи с течением времени. Например, список товаров, приобретенных покупателями, с метками времени пригоден для анализа данных, который может выявить, какие комбинации товаров склонны быть часто потребляемыми вместе, и имеют ли они тенденцию показывать определенные профили поведения в течение долгого времени. Однако, данный подход представляет собой слишком строгий механизм поиска временных шаблонов, то есть не учитывает ситуации, когда временной шаблон не сохраняется на всей длине рассматриваемой последовательности. Иными словами, метод не позволяет обнаружить частичные временные шаблоны. К примеру, продажи на средства уборки будут расти после шторма, а не в его предверии (Yoo, 2012).

1.3 Вкусовые сочетания: пара вина и сыра

В ходе работы будет произведен поиск ассоциативных правил покупки вина и сыра. Эти продукты являются классическим гастрономическим сочетанием. Изучение сочетания вкусовых характеристик этих групп товаров является популярной темой исследований и литературы. Так, в одной из работ (Nygren et al., 2002) был проведен опрос экспертов в области вина. Экспертам требовалось оценить насыщенность вкуса белого вина до и после дегустации сыра с плесенью. Было выявлено, что после дегустации некоторые из оттенков вкуса вина существенно потеряли интенсивность (например, цитрусовый), в то время как другие (преимущественно пряные и горькие ноты) остались без изменений.

Среди главных особенностей культуры потребления вина часто выделяют необходимость сочетания напитка с тем или иным продуктом питания. Эмпирическое исследование (Pettigrew & Charters, 2006) показало две основных причины возникновения подобной необходимости. По результатам проведения 105 интервью с респондентами, проживающими в Австралии, было выявлено, что большинство опрошенных считают неприемлемым потребление вина без продуктов питания, поскольку вкус вина и пищи взаимно усиливают друг друга. Другой причиной стало потребление вина во время праздников и особых мероприятий, когда вино и блюда дополняют друг друга, тем самым создавая атмосферу мероприятия.

В другой работе исследовалась взаимосвязь характеристик набора вин и сыров (Harrington & Hammond, 2005). Методология исследования также представляла собой дегустацию, на которую были приглашены 13 экспертов, которым требовалось оценить сочетаемость продуктов. Так, по оценкам экспертов, Пино Нуар и Рислинг являются наиболее универсальными винами для потребления с сырами. В свою очередь, твердые сыры были признаны наиболее подходящим дополнением к любому вину.

Исследование сочетаний вина и сыра могут стать основой маркетинговых кампаний в сфере ритейла. Результаты могут быть использованы в мерчендайзинге для улучшения выкладки товаров на полках магазина или лечь в основу рекламной кампании. Кроме того, поиск устойчивых сочетаний имеет большое значение для эффективных кросс-продаж, а найденные паттерны в дальнейшем могут способствовать увеличению выручки предприятия.

1.4 Паттерн-майнинг как механизм увеличения кросс-продаж

Кросс-продажи - это термин, обозначающий процесс, в ходе которого компания стремиться совместно с товарами и услугами основного ассортимента продать клиенту дополнительные продукты, которые могут способствовать продаже основных. Часто кросс-продажи нацелены не только на увеличение прибыли, но и на повышение лояльности клиентов, развитие отношений с ними. В таких случаях механизмом реализации кросс-продаж может стать, например, закусочная на автозаправке. Кросс-продажи представляют собой эффективное средство повышения прибыли бизнеса и лояльности клиентов. Тем не менее, для его реализации необходим анализ продаж, который позволит выявить предпочтения клиентов и найти виды товаров и услуг, часто приобретаемых совместно.

Для задачи кросс-продаж можно определить четыре основных компонента (Anand et. al., 1998):

1. Поиск паттернов потребительского поведения, который позволит идентифицировать наборы товаров и услуг, часто приобретаемые совместно

2. Выбор наилучших паттернов, на которые фирма будет ориентироваться при разработке какой-либо маркетинговой кампании

3. Планирование и реализация данной кампании

4. Анализ результатов и обратная передача результатов в базу данных для уточнения правил, используемых в маркетинге

Таким образом, поиск ассоциативных правил в кросс-продажах позволяет итеративно улучшать маркетинговые кампании фирмы, увеличивая прибыль фирмы и лояльность клиентов.

2. Поиск ассоциативных правил

2.1 Постановка исследовательского вопроса

В рамках данного исследования будет проведено сравнение различных подходов к поиску ассоциативных правил и проанализирована полезность найденных правил для организации. Практическая часть работы предполагает выполнение следующих задач:

1. Поиск паттернов потребительского поведения на рынке вина и сыра и сравнение результатов работы различных алгоритмов

2. Поиск наиболее прибыльных паттернов для организации, а также анализ уже найденных правил с точки зрения полезности для бизнеса

3. Поиск паттернов, устойчивых во времени

4. Анализ полученных результатов

Поиск ассоциативных правил будет произведен на данных о транзакциях гипермаркета «Семья» с января 2014 года по апрель 2015. Данный период интересен тем, что в августе 2014 года правительство Российской Федерации ввело запрет на импорт и продажу сыров и мясных деликатесов из Европейского союза. Таким образом, полученные данные были дополнительно разбиты на две выборки - до и после сентября 2014 года. Несмотря на то, что в рамках имеющихся данных нельзя сделать однозначных выводов о влиянии продуктового эмбарго на поведение потребителей, можно ожидать некоторые изменения в ассоциативных правилах, обусловленные исчезновением многих импортных сыров с полок магазинов.

2.2 Структура данных

Данные о транзакциях гипермаркета «Семья» представлены в виде таблицы, каждая строка которой представляет собой отдельный товар, купленный в магазине. После очистки и подготовки данных, каждая отдельная строка представляла собой транзакцию, которая включала только информацию о сыре и/или вине, приобретенных в рамках одного чека. Структура данных включает в себя следующие переменные:

1. Купленные товары, представляющие собой закодированную информацию о характеристиках вина и сыра, приобретенных в рамках одной транзакции

2. Стоимость товаров - цена каждого отдельного товара, купленного в данном чеке

3. Количество каждого отдельного товара

4. Выручка с продажи каждого отдельного товара

5. Дата и время транзакции

6. Номер чека

Как уже было сказано ранее, в целях репрезентативности данные были дополнительно разбиты на две выборки - до и после введения эмбарго. Ниже представлена таблица с описательной статистикой для каждой исследуемой группы транзакций:

Parameter\Sample

01.01.2014-01.09.2014

01.09.2014-01.04.2015

Full Sample

N of transactions

106066

92912

198978

Avg items per transaction

4.47

4.27

4.37

Std. dev

3.15

3.16

3.15

Var

9.92

9.98

9.93

Avg item support

26357.67

22055.5

48340.83

Std. dev

37042.03

33662.97

69059.08

Var

1.37

1.13

4.77

Min item support

14

25

30

Max item support

116615

138091

252872

В каждой отдельной транзакции представлена закодированная информация о характеристиках каждого товара. Исследуемая база данных включает следующие группы товаров:

- Вино

o Белое

§ Белое сухое

§ Белое полусухое

§ Белое полусладкое

§ Белое сладкое

o Красное

§ Красное сухое

§ Красное полусухое

§ Красное полусладкое

§ Красное сладкое

- Сыры

o Твердые

§ Твердые производства СНГ

§ Твердые импортные

o Мягкие

§ Мягкие производства СНГ

§ Мягкие импортные

o Рассольные сыры, брынза

o Сыры с плесенью

2.3 Методология

В рамках работы будут рассмотрены три группы методов поиска патттернов - простые алгоритмы поиска ассоциативных правил, алгоритмы поиска полезных правил (utility-based methods) и методы поиска паттернов, устойчивых во времени (temporal pattern mining).

Первоначальный поиск ассоциативных правил будет производиться с помощью алгоритмов Apriori, FPGrowth (Frequent Pattern tree), GCD (Greatest Common Divisor), TopKRules - алгоритм выбирает заданное число лучших правил по аналогии с BPSO (Sarath, Ravi, 2013). Полученные наборы паттернов будут сравниваться с результатами работы HURM-алгоритмов. Для того, чтобы определить, произошли ли изменения в потребительских привычках после введения запрета на импорт, будет применен Temporal Pattern Mining.

Имплементация всех рассматриваемых алгоритмов будет произведена с помощью открытого программного решения SPMF для анализа данных.

2.4 Простые алгоритмы поиска ассоциаций

В рамках данного исследования будет проведено сравнение результатов работы четырех разных алгоритмов поиска потребительских правил:

- Apriori algorithm

- FPGrowth algorithm with lift

- GCD algorithm

- TopKRules algorithm

Алгоритм Apriori используется часто встречающихся наборов элементов и поиска ассоциативных правил. Для этого алгоритм сначала выделяет часто встречающиеся элементы в базе, после чего расширяет их на все более и более крупные наборы элементов. Такие наборы также должны встречаться в базе данных с определенной частотой. Apriori использует два основных параметра - минимально допустимые Support и Confidence, рассмотренные ранее в теоретической части работы. В рамках данного исследования для алгоритма Apriori были выбраны следующие значения параметров:

minSupport

1%

minConfidence

20%

Далее был проведен анализ транзакций на всех сформированных выборках. Наиболее частым набором продуктов на полной выборке оказалась покупка твердого сыра вместе с красным вином. Данный паттерн для сыра производства стран СНГ встречается в 12817 транзакциях или в 6,4% выборки, а импортный твердый сыр только в 5,8%. При этом показатель confidence находится на уровне 25% и 23% соответственно. При сравнении ассоциативных правил до и после введения эмбарго, можно заметить, что до запрета на импорт большинство ассоциативных правил включало в себя импортные сыры. В то же время, все значимые паттерны, найденные на второй части выборки, включают в себя только сыры производства стран СНГ. Подобное изменение потребительского поведения может быть вызвано резким сокращением ассортимента импортных сыров в магазине после введения запрета на продажу.

Алгоритм FPGrowth считается более эффективной версией Apriori и также используется для обнаружения всех ассоциативных правил в базе транзакций. Алгоритм основан на рассмотренном в первой главе двухступенчатом подходе (Agrawal et al., 1993). На первом шаге алгоритм определяет часто встречающиеся наборы элементов, сортируя их по убыванию частоты. Далее, согласно полученному списку, база сжимается в дерево часто встречающихся паттернов (frequent pattern tree или FP-tree), которое сохраняет всю ассоциативную информацию.

Существует много альтернативных версий подхода FPGrowth, однако в данной работе будет использована его вариация с дополнительной метрикой - lift (Lenca, Vaillant, Meyer, and Lallich, 2007). Обычно, поиск ассоциативных правил ограничивается двумя показателями для оценки - support и confidence. Однако высокие значения поддержки и достоверности еще не гарантируют высокую полезность правила для бизнеса. Правило со слишком большой поддержкой может оказаться тривиальным или же включать в себя наиболее популярные продукты/услуги. А правило с очень высокими показателем доставерности с большой вероятностью содержит в следствии те продукты/услуги, которые потребитель уже приобрел. В связи с этим, в данном подходе реализована еще один популярный показатель - lift или interest. Наиболее интересными для анализа будут ассоциации с высоким показателем lift. Данный показатель считается по следующей формуле:

, где

· N - это количество транзакций в базе данных;

· sup(X?Y) - это количество транзакций, включающих X и Y;

· sup(X) - это количество транзакций, включающих X;

· sup(Y) - это количество транзакций, включающих Y.

Значения лифта, большие, чем единица, показывают, что условие чаще появляется в транзакциях, содержащих следствие, чем в остальных.

В рамках работы были выбраны следующие параметры алгоритма:

minSupport

10%

minConfidence

50%

minLift

1.0

Результаты работы алгоритма схожи с результатами работы Apriori, наибольшую связь между собой имеют красное сухое вино и твердый сыр. Тем не менее, полученные результаты включают в себя большее разнообразие найденных правил, даже несмотря на более высокие заданные параметры. Так, было выявлено правило покупки рассольного сыра вместе с красным сухим вином, а на второй части выборки (после введения эмбарго) сохраняются правила покупки импортных сыров, несмотря на снижение показателей по сравнению с первой выборкой.

В качестве минуса работы данного алгоритма можно отметить слишком завышенные показатели сonfidence и lift, что может говорить о неопределенности полученных правил и необходимости дальнейшего анализа для объяснения полученных закономерностей. Кроме того, полученные результаты могут быть связаны с популярностью тех групп товаров, которые встречаются в большей половине полученных ассоциаттивных правил. Красное сухое вино за рассматриваемый период было приобретено 43719, а твердый сыр - 220193 раза был куплен сыр производства СНГ и 148676 раз импортный твердый сыр.

Алгоритм GCD - это авторский алгоритм, разработанный Ahmed El-Serafy и Hazem El-Raffiee в 2015 году. Данный алгоритм находит ассоциативные правила в базе данных транзакций, используя параметр maxcomb. Этот параметр используется при нахождении GCD (Greatest Common Divisor). Показатель maxcomb ограничивает максимально возможный объем комбинаций, генерируемых одним GCD. Несмотря на то, что увеличение этого числа теоретически может дать более точный результат, эксперименты показали, что более крупные ассоциативные правила возникают при более низком уровне показателя Support, а значит менее важны для бизнеса.

Используемые параметры алгоритма:

minSupport

10%

minConfidence

50%

maxcomb

3

Результаты работы данного алгоритма показывают крайне небольшое количество ассоциативных правил. Так, из трех ассоциативных правил в первой выборке (красное сухое вино с твердым сыром производства СНГ и импортным, а также мягким импортным сыром), во второй выборке был найден только один паттерн - красное сухое вино и твердый сыр производства СНГ.

Алгоритм TopKRules отличается от прочих алгоритмов тем, что позволяет обнаруживать ассоциативные правила без указания минимального уровня Support. Обычно, подбор данного показателя отнимает много времени у пользователя, поскольку чаще всего установка minSupport производится методом перебора и анализа результатов. TopKRules решает данную проблему, позволяя напрямую указывать количество правил (k), которые необходимо найти в базе данных. Основная идея алгоритма заключается в том, чтобы выбрать k лучших ассоциативных правил, постепенно увеличивая показатель minSupport с 0 до тех пор, пока не останется ровно k правил.

Параметры алгоритма, используемые в данной работе:

k

5

minConfidence

60%

По результатам работы алгоритма были выявлены ассоциативные правила, содержащие пары вина только с твердыми сырами. Найденные правила коснулись преимущественно полусухих вин и твердого сыра производства СНГ. Тем не менее, на первой части выборки (до введения эмбарго) 3 из 5 найденных паттернов включали в себя твердые импортные сыры, однако после запрета на импорт все ассоциативные правила включали только вино и твердый сыр производства стран СНГ, что оказалось справедливо для всей выборки в целом.

2.5 Поиск полезных ассоциаций

Для оценки полезности паттернов потребительского поведения многие исследователи используют итоговую прибыль организации от реализации продукции. Так, в статье «An Efficient Algorithm for High Utility Pattern Mining from Transactional Databases», авторы используют формулу полезности UOI = EU(e)* IU(e), где UOI - Utility of Itemset - общая полезность транзакции представлена в виде произведения количества товара (IU - Internal Utility) и прибыли, полученной от реализации этого товара (EU - External Utility) (Tewari & Panwar, 2018).

В рассматриваемых данных отсутствует информация о цене закупки товара, поэтому невозможно точно определить прибыль компании от каждой отдельной транзакции. Таким образом, было решено оценить прибыль организации через торговую наценку на продажу определенной категории товаров. Согласно Симоновой-Хитровой Марине в исследовании потребления вина в России, «розничная сеть (магазины, рестораны) делает дополнительную наценку на вино в размере 50%». В другой статье, посвященной антимонопольному регулированию розничной торговли, Богданов Д.Д и Смирнова О.О. приводят график структуры розничной цены вин европейского производства на российском рынке в 2009 году:

Таким образом, на основе исследований российского рынка было принято решение определить полезность каждой проданной бутылки вина как 50% от цены продажи конечному потребителю.

Оценка полезности проданного сыра была определена как 30% от цены продажи и основывалась на экспертной оценке практикующих специалистов на российском рынке. Так, в интервью журналу Forbes, Дмитрий Матвеев, генеральный директор ГК «Кабош» (производство до 30 тонн сыра в сутки), сообщил, что «наценка розничных сетей не ниже 30%». В другом интервью Инга Яппарова, совладелец розничной сети «Сыр & масло» (принадлежит «Костромским сыроварням») сообщила, что «наценка в магазинах в среднем составляет 30-50%».

В рамках подготовки данных были созданы две дополнительные колонки, содержащие оцененную полезность от продажи каждого отдельного товара и совершения транзакции в целом. Следующим этапом были реализованы три алгоритма поиска паттернов с высокой полезностью (High-Utility Rule Mining, HURM):

§ Bio-HUIF-GA

§ Bio-HUIF-PSO

§ CHUI-Mine (Maximal)

Все используемые алгоритмы обрабатывают базу транзакций, в качестве конечного результата выдавая наиболее полезные наборы товаров, содержащие наборы товаров с не меньшей полезностью, чем установленное минимальное значение.

Алгоритмы Bio-HUIF-GA и Bio-HUIF-PSO пытаются воспроизвести логику поведения биологических организмов, итеративно улучшая подходящее решение с учетом определенного показателя качества. Поведение биологических систем часто становится основой для создания высокопроизводительных вычислительных моделей и интеллектуальных алгоритмов, позволяющих создавать новые методы решения проблем с повышенной надежностью и гибкостью в сложных сценариях оптимизации (Song & Huang, 2018).

Bio-HUIF-GA (Biological High-Utility Itemset Finding Genetic Algorithm) - один из первых алгоритмов, созданных на основе поведения био-систем. Данный алгоритм использует логику поведения популяции хромосом, каждая из которых может быть потенциальным решением заданной проблемы. Только те хромосомы в популяции, которые лучше подходят для окружающей среды, могут выжить и создать потомство. В генетическом алгоритме первая «популяция» генерируется случайно. Затем алгоритм итеративно применяет три оператора - отбор (selection), кроссинговер (crossover) и мутация (mutation). На этапе отбора алгоритм определяет, какие «особи» будут производить потомство, используя предопределенную функцию полезности. Кроссинговер объединяет части двух родительских хромосом для создания дочерних хромосом - следующей популяции. Мутация поддерживает разнообразие в популяции в соответствии с определенными вероятностями и помогает найти более устойчивые правила. Процесс отбора, кроссинговера и мутации повторяется до тех пор, пока не будет выполнено условие завершения (Song & Huang, 2018).

Bio-HUIF-PSO (Biological High-Utility Itemset Finding Partical Swarm Optimization) - алгоритм, имитирующий процесс поиска еды в дикой природе для птиц или рыб. В данном алгоритме на этапе инициализации генерируется несколько случайных частиц. Каждая из частиц движется к оптимальному значению итеративно, учитывая свое предыдущее положение и скорость, а также положение и скорость других частиц. В результате работы, все частицы обновляют свою скорость и положение до тех пор, пока не будет найдено лучшее решение или не будет достигнуто максимальное количество итераций (Song & Huang, 2018).

Обоим генетическим алгоритмам была поставлена задача найти наиболее полезные наборы товаров для фирмы с точки зрения прибыльности. Основным критерием отбора наборов была полезность, полученная от реализации транзакций, минимальное значение которой было определено как 100000 единиц. Оба алгоритма пришли к одинаковым результатам. Согласно найденным наборам, можно сделать вывод, что наиболее полезными оказались сочетания твердых сыров и красного сухого вина - наиболее популярное встречающееся ассоциативное правило согласно результатам работы алгоритмов поиска поведенческих паттернов.

Алгоритм CHUI-Miner-Maximal (Compact High-Utility Itemset Miner with Maximal Utility) был представлен Wu et. al. в 2019 году. Основной задачей алгоритма также является поиск сочетаний с максимальной полезностью для фирмы. Наборы с максимальной полезностью - это такие наборы, которые не включены в другие наборы с высокой полезностью для организации. Алгоритм также предполагает наличие минимально допустимой полезности. В своей статье авторы проводят сравнение данного алгоритма с другими, доказывая его эффективность по сравнению с существующими подходами к поиску наиболее прибыльных сочетаний (Wu et. al., 2019).

В рамках данной работы было определено минимальное значение полезности для алгоритма, равное 50000 единицам. По результатам работы алгоритма можно увидеть, что до введения продуктового эмбарго наиболее полезные наборы товаров включали в себя преимущественно импортные сыры и сыры с плесенью в сочетании с различными винами. При этом, на второй части выборки преобладали сыры производства СНГ, а импортные сыры попадали в набор только в том случае, если там уже был сыр из СНГ.

По результатам поиска наиболее полезных наборов сохранилась тенденция к преобладанию сыров российского производства и производства стран СНГ после введения запрета на импорт товаров. Это справедливо как для обоих алгоритмов на основе биологических систем, так и для CHUI-Miner-Maximal.

2.6 Паттерны, устойчивые во времени

PHM (Periodic High-Utility Itemset Miner) - алгоритм, созданный для обнаружения наборов элементов с высокой полезностью, которые повторяются во времени с определенной периодичностью (Dam et. al., 2016). PHM может обнаруживать последовательные шаблоны, которые не только повторяются с течением времени, но и приносят прибыль компании.

В рамках работы были установлены следующие параметры поиска паттернов:

§ Минимальная полезность = 1000 рублей

§ Минимальная средняя периодичность (среднее количество транзакций, за которое встречается паттерн) = 25 транзакций

По результатам работы алгоритма, можно увидеть, что типичные паттерны поведения потребителей меняются с течением времени. Так, например во второй части выборки алгоритм выявил только паттерны, включающие в себя сыры производства стран СНГ, а частота появления сохранившихся паттернов изменилась.

2.7 Сравнение алгоритмов и анализ результатов

В рамках данного исследования была проанализирована база транзакций гипермаркета «Семья» за период с 01.01.2014 по 01.04.2015. Были выявлены основные паттерны потребительского поведения, после чего был проведен поиск наиболее прибыльных для фирмы ассоциативных правил, а также поиск паттернов, устойчивых во времени.

Сравнивая результаты работы алгоритмов, можно увидеть существенные отличия в полученных наборах ассоциативных правил. Так, алгоритм Apriori смог найти большое количество ассоциативных правил, однако показатель Support для каждого отдельного правила сравнительно невысок, а уровень Confidence не превышает 36%. Алгоритм FPGrowth с показателем lift также нашел большое количество паттернов, однако показатели Confidence и Lift, близкие к единице, заставляют усомниться в достоверности полученных результатов. Высокие показатели достоверности и лифта могут быть связаны с тем, что около половины найденных паттернов включают красное сухое и вино и твердые сыры. Данные товары пользуются большим спросом среди потребителей по сравнению с другими рассмотренными категориями.В связи с этим, полученные паттерны могут быть вызваны не взаимосвязью между потреблением этих товаров, а популярностью этих продуктов среди потребителей. Наилучшие результаты показали алгоритмы GCD и TopKRules - полученные правила имеют высокие показатели Support и Confidence и согласуются с результатами работы алгоритмов, использующих HURM-подход.

Непосредственно по результатам работы четырех алгоритмов можно сделать несколько выводов о паттернах поведения покупателей гипермаркета «Семья»:

- Чаще всего люди предпочитают покупать твердые сыры к вину, в особенности к красному сухому;

- До введения продуктового эмбарго потребители отдавали предпочтение импортным сырам в сочетании с вином;

- В условиях запрета на продажу импортных сыров паттерны меняются, и покупатели более активно приобретают сыры производства стран СНГ;

- При рассмотрении полной выборки, можно проследить обе тенденции - показатели сочетаний вина и импортных сыров ниже, чем до введения эмбарго, а показатели сочетаний вина и сыров СНГ ниже, чем на выборке после введения эмбарго.

- Мягкий импортный сыр имеет большое значение для потребителей до введения эмбарго и на всей выборке в целом, при этом не являясь значимым на выборке после введения запрета на импорт.

Далее был проведен анализ транзакций в целях выявления наиболее полезных для фирмы ассоциативных правил. В ходе работы были использованы алгоритмы, основанные на поведении биологических систем - Bio-HUIF-GA и Bio-HUIF-PSO. Оба представленных алгоритма показали одинаковые результаты, подтверждающие выводы, сделанные на этапе поиска ассоциативных правил. Наиболее полезным для бизнеса оказались паттерны, связывающие покупки твердого сыра с красным сухим вином. На основе результатов работы CHUI-Miner-Maximal можно проследить изменение типичных ассоциативных правил для покупателей гипермаркета «Семья». Можно заметить, что в период с 01.01.2014 по 01.09.2014 покупатели отдавали предпочтение импортным сырам, которые присутствует в каждом полученном наборе. Во втором периоде можно увидеть изменение привычных паттернов - среди ассоциативных правил наибольшей полезности сыры производства стран СНГ практически полностью заменили импортные.

На последнем этапе исследования с помощью алгоритма PHM были выявлены устойчивые паттерны, сохраняющиеся с течением времени. Наиболее часто встречающееся правило на всей выборке - белое полусладкое вино и твердый сыр производства СНГ - встречается приблизительно один раз в 6 транзакций. При этом, на выборке до введения эмбарго данный набор встречается немного реже - один раз в 6,33 транзакции, а на выборке после - немного чаще - один раз в 5,58 транзакций.

Кроме того, в первой выборке 5/9 найденных ассоциаций включали импортные сыры, в то время как во второй части остались только паттерны включающие сыр производства СНГ. Также в первой части выборки, как и в полной выборке, белое полусладкое вино встречается только в паре с твердым импортным сыром, в то время как во второй части выборки появляется паттерн сочетания белого полусладкого вина с твердым сыром производства СНГ.

Паттерн сочетания красного сухого вина и твердых сыров производства СНГ в выборке до введения запрета наа импорт встречался реже (раз в 8,73 транзакции), а в выборке после - чаще (раз в 7,09 транзакций). При этом средняя длина периода для этого же паттерна на всей выорке также 8,73, что может быть вызвано существенным сокращением ассортимента импортных сыров после введения санкций и увеличением спроса на сыры производства СНГ,

Более того, можно увидеть, что на выборке за период с 01.09.2014 по 01.04.2015 появилось новое правило, не встречающееся на первой части выборки - белое сухое вино и твердый сыр производства СНГ. Этот паттерн оказался чрезвычайно популярным в период после введения эмбарго - такой набор встречается в среднем один раз в 3,84 транзакции.

Заключение

В ходе проделанной работы была проанализирована база транзакций гипермаркета «Семья» в городе Перми. Целью исследования было выявить типичные паттерны поведения покупателей данного гипермаркета и проследить их изменение с течением времени. Кроме того, в рамках работы было проведено сравнение различных подходов к анализу поведенческих паттернов с целью выявить наиболее эффективный из них. По результатам сравнительного анализа было выявлено, что из представленных простых алгоритмов поиска ассоциативных правил наибольшую эффективность показали алгоритмы GCD и TopKRules. Далее, с помощью алгоритмов поиска наиболее прибыльных наборов товаров были подтверждены выводы, полученные на первом этапе. Наборы с наибольшей полезностью совпали с выявленными ассоциативными правилами, а с помощью алгоритма CHUI-Miner-Maximal стало возможным более детально проследить изменение потребительских привычек. Последним этапом исследования стал поиск наборов, часто повторяющихся во времени. Новые результаты совпали с уже полученными, а благодаря показателю средней периодичности набора стало возможным не только проследить формирование новых паттернов, но и увидеть, как изменились старые.

Список литературы

1. Ahn, K. (2012) Effective product assignment based on association rule mining in retail. Expert Systems with Applications, 12551-12556.

2. Agrawal R., Imielinski T. & Swami A. N. (1993) Mining association rules between sets of items in large databases. 1993 ACM SIGMOD International Conference on Management of Data, Washington, 207-216.

3. Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. In Proc. 20th int. conf. very large data bases, VLDB, vol. 1215, pp. 487-499.

4. Anand S., Patrick A., Hughes J. & Bell D. (1998) A Data Mining methodology for cross-sales. Knowledge-Based Systems, 10, 449-461.

5. Brijs, T., Swinnen, G., Vanhoof, K., & Wets, G. (2004) Building an Association Rules Framework to Improve Product Assortment Decisions, Engineering Applications of Artificial Intelligence, 26, 1832-1840.

6. Fournier-Viger, P., Lin, C.W., Duong, Q.-H., Dam, T.-L. (2016). PHM: Mining Periodic High-Utility Itemsets. 16th Industrial Conference on Data Mining., Springer

7. Fournier-Viger P., Wu CW., Tseng V.S. (2012) Mining Top-K Association Rules. In: Kosseim L., Inkpen D. (eds) Advances in Artificial Intelligence. Canadian AI 2012. Lecture Notes in Computer Science, vol 7310. Springer, Berlin, Heidelberg

8. Han, J., Cheng, H., Xin, D. et al. (2007). Frequent pattern mining: current status and future directions. Data Min Knowl Disc 15, 55-86

9. Harrington, R. J., & Hammond, R. (2006). The direct effects of wine and cheese characteristics on perceived match. Journal of Foodservice Business Research, 8(4), 37-54.

10. Lee, D., Park, S., & Moon, S. (2011) High-Utility Rule Mining for Cross-Selling. 44th Hawaii International Conference on System Sciences, Kauai, HI, 2011, 1-10.

11. Lee, D., Park, S., & Moon, S. (2013) Utility-based association rule mining: A marketing solution for cross-selling. Expert Systems with Applications, 2715-2725.

12. Lenca, P., Vaillant, B., Meyer, P., & Lallich S. (2007) Association Rule Interestingness Measures: Experimental and Theoretical Studies. Quality Measures in Data Mining. Studies in Computational Intelligence, vol. (43), Springer, Berlin, Heidelberg.

13. Nygren, I. T., Gustafsson, I.-B., Johansson, L. Perceived flavour changes in white wine after tasting blue mould cheese // Food Service Technology. 2002. No.2(4). P. 163-171.

14. Pettigrew, S., & Charters, S. (2006). Consumers' expectations of food and alcohol pairing.

15. Rakesh A, Ramakrishnan S. (1994) Fast Algorithms for Mining Association Rules in Large Databases. In Proceedings of the 20th International Conference on Very Large Data Bases (VLDB '94), 487-499.

16. Sarath, K.N.V.D. & Ravi, V. (2013) Association rule mining using binary particle swarm optimization. Engineering Applications of Artificial Intelligence, 26, 1832-1840.

17. Song, W. & Huang, C. (2018). Mining High Utility Itemsets Using Bio-Inspired Algorithms: A Diverse Optimal Value Framework, IEEE, 6, 19568-19582.

18. Tewari, V. & Panwar, A. (2018) An Efficient Algorithm for High Utility Pattern Mining from Transactional Databases. International Journal of Applied Engineering Research, vol 13, 12326-12330.

19. Yoo J.S., (2012) Temporal Data Mining: Similarity-Profiled Association Pattern. Data Mining: Foundations and Intelligent Paradigms. Intelligent Systems Reference Library, vol. (23), Springer, Berlin, Heidelberg.

20. Wu. C.-W., Fournier-Viger, P., Gu, J. Y., Tseng, V.S. (2019). Mining Compact High Utility Itemsets without Candidate Generation. In: Fournier-Viger et al. (eds). High-Utility Pattern Mining: Theory, Algorithms and Applications, Springer.

21. Богданов, Д. Д., & Смирнова, О. О. (2010). Антимонопольное регулирование розничной торговли продовольственными товарами. Современная конкуренция, (4), 26-34.

22. Данько, Т. П., & Скоробогатых, И. И. (2005). Количественные методы анализа в маркетинге. СПб.: Питер.

23. Симонова-Хитрова, М.Ю. (2016). Потребление вина в России и маркетинговые стратегии французских компаний. Экономика и управление: проблемы, тенденции, перспективы развития: материалы IV Международная научно-практическая конференция, 148-151.

24. https://www.audit-it.ru

25. https://bitbucket.org/aelserafy/gcd-association-rules/src/master/

26. https://www.forbes.ru/

Приложения

Приложение 1

Результаты работы алгоритмов

Apriori

First Sample (01.01.2014 - 01.09.2014)

Pattern

Support

Confidence

RedDry ==> Hard_Import

7230

0.26296646541063506

RedDry ==> Soft_Import

5909

0.21491961882592567

RedDry ==> Hard_CIS

5895

0.21441041681821488

RedSemiSweet ==> Hard_Import

4546

0.2975130890052356

WhiteDry ==> Hard_Import

4229

0.25397874001561466

RedSemiSweet ==> Hard_CIS

3962

0.2592931937172775

RedSemiSweet ==> Soft_Import

3653

0.23907068062827225

WhiteSemiSweet ==> Hard_Import

3424

0.24989052693037514

WhiteSemiSweet ==> Hard_CIS

2915

0.21274266530433514

Second Sample (01.09.2014 - 01.04.2015)

Pattern

Support

Confidence

RedDry ==> Hard_CIS

6922

0.296141011380166

RedSemiSweet ==> Hard_CIS

3955

0.3561458802341288

WhiteSemiSweet ==> Hard_CIS

3772

0.29342668222481527

WhiteDry ==> Hard_CIS

3324

0.2769076974341886

Full Sample (01.01.2014 - 01.04.2015)

Pattern

Support

Confidence

RedDry ==> Hard_CIS

12817

0.25196587245419516

RedDry ==> Hard_Import

11533

0.22672407014232918

RedSemiSweet ==> Hard_CIS

7917

0.3000568504832291

RedSemiSweet ==> Hard_Import

6924

0.26242183058555996

WhiteSemiSweet ==> Hard_CIS

6687

0.2517980193545958

WhiteDry ==> Hard_CIS

6606

0.23053568312685396

WhiteDry ==> Hard_Import

6332

0.22097365206770198

RedSemiSweet ==> Soft_Import

5823

0.22069357589539512

WhiteSemiSweet ==> Hard_Import

5529

0.20819369657717363

FPGrowth with lift

First Sample (01.01.2014 - 01.09.2014)

Pattern

Support

Confidence

Lift

RedDry ==> Hard_CIS

27494

1.0

1.0

RedDry ==> Hard_Import

27494

1.0

1.0

RedDry ==> Soft_Import

24882

0.9049974539899615

1.19772731186628

WhiteDry ==> Hard_CIS

16651

1.0

1.0

WhiteDry ==> Hard_Import

16651

1.0

1.0

RedSemiSweet ==> Hard_CIS

15280

1.0

1.0

RedSemiSweet ==> Hard_Import

15280

1.0

1.0

WhiteDry ==> Soft_Import

14950

0.8978439733349348

1.188259971248184

RedDry ==> Pickled

14365

0.5224776314832327

1.27571621687156

WhiteSemiSweet ==> Hard_CIS

13702

1.0

1.0

WhiteSemiSweet ==> Hard_Import

13702

1.0

1.0

RedSemiSweet ==> Soft_Import

13689

0.8958769633507854

1.185656713559068

WhiteSemiSweet ==> Soft_Import

12189

0.8895781637717122

1.177320508573555

Second Sample (01.09.2014 - 01.04.2015)

Pattern

Support

Confidence

Lift

RedDry ==> Hard_CIS

23374

1.0

1.0

RedDry ==> Hard_Import


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.