Інтерпретація алгоритмів машинного навчання для прийняття рішень у роздрібній торгівлі
Розробка моделі машинного навчання на базі набору даних змагань "M5 Accuracy", метою якого є точний прогноз продаж товарних одиниць для компанії роздрібної торгівлі у світі - Walmart. Побудова її високорівневої інтерпретації з використанням підходу SHAP.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | украинский |
Дата добавления | 14.05.2024 |
Размер файла | 476,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Інтерпретація алгоритмів машинного навчання для прийняття рішень у роздрібній торгівлі
Косован Олександр Васильович, аспірант, Дацко Мирослав Володимирович кандидат економічних наук, доцент, Львівський національний університет імені Івана Франка
Стаття присвячена питанню інтерпретації алгоритмів машинного навчання для прийняття рішень у роздрібній торгівлі. Було описано останні дослідження, які підтверджують актуальність проблематики. Зосереджено увагу на підході SHAP як на одному з перспективних методів розв'язання поставленої задачі. Розглянуто як теоретичні засади, так і практичне використання даного підходу. Розроблено модель машинного навчання на базі набору даних змагань «M5 Accuracy», метою якого був точний прогноз продаж товарних одиниць для однієї з найбільших компаній роздрібної торгівлі у світі - Walmart. Побудована високорівнева інтерпретація розробленої моделі з використанням підходу SHAP. Також вказані напрямки майбутніх досліджень та обмеження використаних підходів.
Ключові слова: машинне навчання, роздрібна торгівля, прогнозування, інтерпретація, прийняття рішень.
Interpretation of machine learning algorithms for decision-making in retail
Kosovan Oleksandr, Datsko Myroslav Ivan Franko National University of Lviv
The interpretation of machine learning algorithms for decision-making in the retail industry is a highly relevant and important topic in the field of artificial intelligence. The rapid advancement of machine learning technologies has made it possible to analyze large amounts of data and make predictions with great accuracy. However, this has also led to a growing need for methods that can help explain and interpret the results of these predictions. In this research paper, we focus on the SHAP method as a promising solution to the challenge of interpreting machine learning algorithms. We begin by providing an overview of the latest research studies that support the importance of this issue. We then delve into the theoretical foundations of the SHAP method and its practical applications.
To demonstrate the effectiveness of the SHAP method, we develop a model using the M5 Accuracy competition dataset, which was aimed at accurately predicting Walmart's hierarchical unit sales. As an example, we used LightGBM which is a gradient-boosting framework that uses tree-based learning algorithms. Also, we describe the used machine learning workflow with feature engineering of time series (including rolling and expanding window statistics) and category data. The model was rapidly interpreted using the SHAP approach, providing valuable insights into the decision-making process in the retail industry. Additionally, we highlight the limitations of existing methods and outline potential directions for future research. This is crucial in order to continue advancing the field of machine learning and ensuring its successful application in the retail industry.
The interpretation of machine learning algorithms is crucial for making informed and effective decisions in the retail industry. Our work aims to contribute to the ongoing conversation and research surrounding this important topic. In conclusion, this research paper provides a comprehensive introduction to the interpretation of machine learning algorithms for decision-making in the retail industry. We hope that our work will contribute to a deeper understanding of this important issue and facilitate the effective application of machine learning in the retail industry.
Keywords: machine learning, retail, forecasting, interpretation, decision making.
продаж машинне навчання торгівля
Постановка проблеми
Інтерпретація алгоритмів машинного навчання для прийняття рішень у сфері роздрібної торгівлі є актуальною та важливою темою для наукової спільноти та бізнесу. Швидкий розвиток технологій машинного навчання дав змогу аналізувати великі обсяги даних і робити прогнози з високою точністю. Однак це також призвело до зростання потреби в методах, які можуть допомогти пояснити та інтерпретувати результати цих прогнозів.
Аналіз останніх досліджень і публікацій
Роздрібна торгівля продовжує трансформувати свої бізнес-моделі у напрямку цифровізації. Спричинено це низкою факторів: ефективність використання омніканальності [1, с. 384-390], цифровізація через коронавірусну кризу [2, с. 83-87], також діджиталізація показала свою ефективність у викликах воєнного часу [3, с. 215-218]. Ці процеси розширили можливості для використання систем штучного інтелекту для автоматизації прийняття рішень [4] та інших задач, з якими стикаються ритейлери [5-7]. Українські роздрібні торговці теж застосовують дані інновації, як, наприклад «Сільпо» використовує машинне навчання для прогнозування продаж по кожній товарній одиниці [8, с. 239-245]. У такого роду задачах виникає наступне питання - це балансування між точністю та інтеропе- рабельністю моделі, яка використовується для прийняття рішень. У науковій спільноті існує дискусія щодо цього, оскільки нелінійні моделі (наприклад, машинне навчання та нейронні мережі) зазвичай мають кращу точність [9], але своєю чергою вони є менш зрозумілими для агентів, які приймають кінцеве рішення [10].
Існує низка підходів до інтерпретації моделей машинного навчання (також відомих як black-box моделі). В даному досліджені ми зосередженні на підході під назвою SHAP (англ. SHapleyAdditive exPlanations, укр. пояснення додатків Шеплі) [11], який базується на значеннях Шеплі з теорії ігор [12]. Існують приклади використовується sHAp для інтерпретації black box моделей для прийняття рішень як у роздрібній торгівлі [13, с. 281-289], так і в інших сферах [14].
Виділення невирішених раніше частин загальної проблеми. Все ж залишається проблема більшої кількості теоретичних та емпіричних досліджень інтерпретації black box моделей, особливо, в розрізі задач певних галузей, як в нашому випадку -- роздрібна торгівля.
Формулювання цілей статті. Основними цілями статті є теоретичний та практичний огляд SHAP, як підходу зрозумілого штучного інтелекту (ЗШІ, англ. explainable artificial intelligence) на прикладі задачі прогнозування продаж.
Виклад основного матеріалу дослідження. Здатність правильно інтерпретувати результати прогнозування надзвичайно важлива. Це створює відповідну довіру для агентів прийняття рішень, дає розуміння того, як можна покращити модель, і підтримує розуміння процесу, що моделюється. Зростаюча доступність великих даних збільшила переваги використання складних моделей, тому на передній план висувається компроміс між точністю та можливістю інтерпретації прогнозу моделі.
Одним із методів, який використовується для інтерпретації моделей є SHAP, що кількісно визначає внесок кожної ознаки щодо прогнозу. На відміну від інших методів, значення SHAP демонструють унікальні властивості, які узгоджуються з людською інтуїцією, що важливо в процесі прийняття рішень [11, р. 2-8].
Значення SHAP визначаються як коефіцієнти пояснювальної моделі котра є лінійною функцією двійкових змінних. Модель g(z) є локальним поясненням прогнозу f(x), створеного моделлю для вектора ознак х, що означає, що унікальна пояснювальна модель може бути згенерована для будь-якого заданого х (формула 1).
(1)
де M -- це кількість ознак (англ, features);
z) вказує на наявність даної ознаки і; ф, відносний внесок у прогноз моделі ознаки і.
Оскільки модель q(х') є локальним поясненням прогнозу f(x), створеного моделлю для вектора ознаках, що означає, що унікальна пояснювальна модель може бути згенерована для будь-якого заданого х, як подано у формулі 2.
(2)
де Iz?І -- це кількість ненульових записів у z'; z' x' репрезентує всі z' вектори, де ненульові елементи є підмножиною ненульових елементів у х'.
Значення SHAP присвоюють кожній зміні ознаки в очікуваному прогнозі моделі. Ці значення пояснюють, як отримати з базового значення E[f (z)], яке було б прогнозовано, якби ми не знали жодних ознак поточного результату f (x). На рис. 1 зображено одну послідовність. Але важливо зауважити, коли модель не є лінійною або вхідні ознаки мають залежності (мультиколінеарність), то послідовність, у якому ознаки додаються на вхід мають значення. Тому значення SHAP виникають з усереднення фі для будь-якої послідовності.
Практичний приклад використання базується на наборі даних змагань «M5 Accuracy», метою якого було точно спрогнозувати 42 840 часових рядів, що представляють об'єми продажів товарних одиниць для найбільшої компанії роздрібної торгівлі у світі за доходами - Walmart. Як свідчить дослідження [15], найкращий результат показав алгоритм машинного навчання LightGBM, який ми і будемо використовувати для інтерпретації. LightGBM є алгоритмом машинного навчання для виконання нелінійної регресії з використанням дерев із посиленням градієнта [16]. LightGBM має кілька переваг порівняно з іншими альтернативами машинного навчання в задачах прогнозування оскільки він дозволяє ефективно обробляти численні характеристики (наприклад, минулі продажі та екзогенні/пояснювальні змінні) різних типів (числові, бінарні та категоричні).
Як вхідні дані було використано близько 40 ознак, як вихідні - об'єм продаж певної товарної одиниці. Серед категорійних ознак, які були використанні як вхідні дані, можна виділити:
- id - унікальний ідентифікатор товарної одиниці;
- dept_id, cat_id - інформація про категорію товару та глибину дерева категорій;
- store_id - унікальний ідентифікатор магазину Walmart;
- state_id - ідентифікатор штату, в якому розташований магазин;
Для підготовки особливостей (англ. feature engineering) часових рядів використовують лаги (англ. lags), щоб зафіксувати зв'язок між поточним значенням змінної та її минулими значеннями. Лаги створюються шляхом зсуву значень часового ряду на певну кількість кроків, і ці значення з відставанням потім можна використовувати як особливості в моделі машинного навчання. Такого типу обробка була застосована, щоб зафіксувати об'єм продаж в минулому для кожної товарної одиниці - sold_lag_{N}, де N - це кількість кроків зсуву.
Також були використані статистичні агрегації для періоду (вікна) перед прогнозуючим днем. Ця техніка передбачає обчислення різних статистичних показників, таких як середнє значення, дисперсія чи інші підсумкові статистичні дані. Це може допомогти покращити здатність моделі фіксувати динаміку даних і робити точніші прогнози. В межах цього підходу ми обрахували середній об'єм продаж для кожної категорії до дня прогнозу. Серед інших згенерованих особливостей є:
- rolling_sold_mean - середній об'єм продаж певної товарної одиниці за попередній тиждень;
- expanding_sold_mean - середній об'єм продаж певної товарної одиниці за весь період до дня прогнозування;
- selling_trend - тренд продаж кожної товарної одиниці, який може бути позитивним або негативним.
Отриманий набір даних було поділено на тренувальну та тестувальну вибірки. Тестувальну вибірку було використано для обрахунку метрик ефективності моделі (табл. 1).
Використовуючи отриману модель та набір даних, ми можемо отримати високорівневу інтерпретацію за допомогою SHAP (рис. 2). Вказаний приклад інтерпретації являє собою ранжування важливості кожної з вхідних особливостей та інформацію про її вплив на прогноз. Наприклад, найважливішою особливістю є тренд продаж (selling_trend). Також середній об'єм продаж певної товарної одиниці за попередній тиждень (rolling_sold_ mean) може вказати на різке збільшення об'єму продаж. Про зменшення майбутніх продажів можуть сигналізувати об'єми продаж в минулому для кожної товарної одиниці (sold_lag_{N}).
Рис. 1. Приклад обрахунку однієї послідовності фа для кожної з ознак
Таблиця 1 Метрики ефективності розробленої моделі, LightGBM
Метрика |
Значення |
|
Середня абсолютна похибка, MAE |
0.06 |
|
Середньоквадратична похибка, MSE |
0.29 |
|
Коефіцієнт детермінації, R-Squared |
0.98 |
Варто додати, що наявний рівень інтерпретації не вказує на причинно-наслідкові зв'язки (мається на увазі, що наступне твердження не є обґрунтованим “особливість Х підвищує/знижує об'єми продаж”), тому варто для вказаних особливостей зробити додатковий детальний аналіз.
Задача інтерпретації алгоритмів машинного навчання потребує подальших досліджень. Перш за все потрібно дослідити та виділити чітку межу між причинно-наслідковими зв'язками та інтерпретацією SHAP. Також варто вивчити використання описаного методу безпосередньо у процесі прийняття рішень. Не менш важливим є збільшення емпіричних досліджень використання SHAP для сфери роздрібної торгівлі та задач прогнозування часових рядів.
Рис. 2. Високорівнева інтерпретація розробленої моделі за допомогою SHAP
Висновки
Інтерпретація алгоритмів машинного навчання для прийняття рішень є важливою сферою досліджень в тому чиcлі для сфери роздрібної торгівлі. У статті описано теоретичні аспекти методології SHAP, яка є одним із перспективних підходів для інтерпретації алгоритмів машинного навчання. Також було розроблено модель машинного навчання для прогнозування продаж мережі Walmart по кожній товарній одиниці. Модель була використана для демонстрації можливості високорівневої інтерпретації моделей машинного навчання, яка може надати цінну інформацію для прийняття рішень. Однак залишається багато відкритих питань і напрямків для майбутніх досліджень, включаючи покращення інтерпретованості моделей машинного навчання, розуміння обмежень існуючих методів і розробку нових підходів.
Список використаних джерел
1. Проскурніна Н.В. Трансформація бізнес-моделей підприємств роздрібної торгівлі в умовах цифровізації. Бізнес Інформ. 2020. № 10. C. 384-391.
2. Kosovan O.V. (2022). Coronavirus impact on top retail e-commerce website traffic in Ukraine. In Economy digitalization in a pandemic conditions: processes, strategies, technologies. Economy digitalization in a pandemic conditions: processes, strategies, technologies. Publishing House “Baltija Publishing.”
3. Kosovan O., Datsko M. (2022) Analysis and forecasting of the development of retail trade during the war in Ukraine. Digitalization of the economy as a factor in the sustainable development of the state. Publishing House “Baltija Publishing.”
4. S. Sharma, N. Islam, G. Singh and A. Dhir, "Why Do Retail Customers Adopt Artificial Intelligence (AI) Based Autonomous Decision-Making Systems?," in IEEE Transactions on Engineering Management,
5. Weber F.D., Schutte R. (2019), "State-of-the-art and adoption of artificial intelligence in retailing", Digital Policy, Regulation and Governance, Vol. 21 № 3, pp. 264-279.
6. Pillai R., Sivathanu B., Dwivedi Y.K. (2020). Shopping intention at AI-powered automated retail stores (AIPARS). In Journal of Retailing and Consumer Services (Vol. 57, p. 102207). Elsevier BV.
7. Піскунова О.В., Клочко Р.С. (2020). Прогнозування часу до наступного замовлення клієнта інтернет-магазину на підґрунті методів машинного навчання. Економічний простір, (161), 147-152.
8. Kosovan O. (2022). Fozzy group hack4retail competition overview: results, findings, and conclusions. In Market Infrastructure (Issue 67). Publishing House Helvetica (Publications).
9. Chu C.-W., Zhang G.P. (2003). A comparative study of linear and nonlinear models for aggregate retail sales forecasting. In International Journal of Production Economics (Vol. 86, Issue 3, pp. 217-231). Elsevier BV.
10. Rudin C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nat Mach Intell 1, 206-215 (2019).
11. Lundberg S., Lee S.-I. (2017). A Unified Approach to Interpreting Model Predictions (Version 2). arXiv.
12. A Value for N-Person Games. (1952). RAND Corporation.
13. Sajja S., Aggarwal N., Mukherjee S., Manglik K., Dwivedi S., Raykar V. (2021). Explainable AI based Interventions for Pre-season Decision Making in Fashion Retail. In Proceedings of the 3rd ACM India Joint International Conference on Data Science & Management of Data (8th ACM IKDD CODS & 26th COMAD). CODS COMAD 2021: 8th ACM IKDD CODS and 26th COMAD. ACM.
14. Lin K., Gao Y. (2022). Model interpretability of financial fraud detection by group SHAP. In Expert Systems with Applications (Vol. 210, p. 118354). Elsevier BV.
15. Makridakis S., Spiliotis E., Assimakopoulos V. (2022). M5 accuracy competition: Results, findings, and conclusions. In International Journal of Forecasting (Vol. 38, Issue 4, pp. 1346-1364). Elsevier BV.
16. Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. 2017. LightGBM: a highly efficient gradient boosting decision tree. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17). Curran Associates Inc., Red Hook, NY, USA, 3149-3157.
References
1. Proskurnina N.V. (2020) Transformatsiia biznes-modelei pidpryiemstv rozdribnoi torhivli v umovakh tsyfrovizatsii. Biznes Inform. №10. S. 384-391. [in Ukrainian].
2. Kosovan O.V. (2022). Coronavirus impact on top retail e-commerce website traffic in Ukraine. In Economy digitalization in a pandemic conditions: processes, strategies, technologies. Economy digitalization in a pandemic conditions: processes, strategies, technologies. Publishing House “Baltija Publishing.”
3. Kosovan O., Datsko M. (2022) Analysis and forecasting of the development of retail trade during the war in Ukraine. Digitalization of the economy as a factor in the sustainable development of the state. Publishing House “Baltija Publishing.”
4. S. Sharma, N. Islam, G. Singh, A. Dhir, "Why Do Retail Customers Adopt Artificial Intelligence (AI) Based Autonomous Decision-Making Systems?," in IEEE Transactions on Engineering Management,
5. Weber F.D., Schutte R. (2019), "State-of-the-art and adoption of artificial intelligence in retailing", Digital Policy, Regulation and Governance, Vol. 21 № 3, pp. 264-279.
6. Pillai R., Sivathanu B., Dwivedi Y.K. (2020). Shopping intention at AI-powered automated retail stores (AIPARS). In Journal of Retailing and Consumer Services (Vol. 57, p. 102207). Elsevier BV.
7. Piskunova O.V., Klochko R.S. (2020). Prohnozuvannia chasu do nastupnoho zamovlennia kliienta internet-mahazynu na pidgrunti metodiv mashynnoho navchannia. Ekonomichnyi prostir, (161), 147-152. [in Ukrainian]
8. Kosovan O. (2022). Fozzy group hack4retail competition overview: results, findings, and conclusions. In Market Infrastructure (Issue 67). Publishing House Helvetica (Publications).
9. Chu C.-W., Zhang G.P. (2003). A comparative study of linear and nonlinear models for aggregate retail sales forecasting. In International Journal of Production Economics (Vol. 86, Issue 3, pp. 217-231). Elsevier BV.
10. Rudin C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nat Mach Intell 1, 206-215 (2019).
11. Lundberg S., Lee S.-I. (2017). A Unified Approach to Interpreting Model Predictions (Version 2). arXiv.
12. A Value for N-Person Games. (1952). RAND Corporation.
13. Sajja S., Aggarwal N., Mukherjee S., Manglik K., Dwivedi S., Raykar V. (2021). Explainable AI based Interventions for Pre-season Decision Making in Fashion Retail. In Proceedings of the 3rd ACM India Joint International Conference on Data Science & Management of Data (8th ACM IKDD CODS & 26th COMAD). CODS COMAD 2021: 8th ACM IKDD CODS and 26th COMAD. ACM.
14. Lin K., Gao Y (2022). Model interpretability of financial fraud detection by group SHAP. In Expert Systems with Applications (Vol. 210, p. 118354). Elsevier BV.
15. Makridakis S., Spiliotis E., Assimakopoulos V. (2022). M5 accuracy competition: Results, findings, and conclusions. In International Journal of Forecasting (Vol. 38, Issue 4, pp. 1346-1364). Elsevier BV.
16. Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. 2017. LightGBM: a highly efficient gradient boosting decision tree. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17). Curran Associates Inc., Red Hook, NY, USA, 3149-3157.
Размещено на Allbest.ru
Подобные документы
Дослідження та представлення моделі інтерактивного засобу навчання, заснованого на платформі Microsoft.net технології ConferenceXP. Розробка програмного середовища, що обслуговує навчальний процес, з метою удосконалення викладання навчального матеріалу.
дипломная работа [4,2 M], добавлен 22.10.2012Розробка інформаційної системи зберігання, обробки та моделювання алгоритмів обчислення статистичних даних для змагань з плавання і з інших видів спорту. Зміст бази даних, реалізація БД засобами MySQL, створення клієнтського додатка в середовищі PHP.
дипломная работа [4,5 M], добавлен 17.09.2011Розробка інформаційної системи зберігання, обробки і моделювання алгоритмів обчислення статистичних даних для спортивний змагань. Характеристика предметної області, архітектури бази даних, установки і запуску системи, основних етапів роботи користувача.
курсовая работа [2,0 M], добавлен 26.12.2011Аспекти вирішення методологічної та теоретичної проблеми проектування інтелектуальних систем керування. Базовий алгоритм навчання СПР за методом функціонально-статистичних випробувань. Критерій оптимізації та алгоритм екзамену системи за цим методом.
курсовая работа [1,6 M], добавлен 22.09.2011Планування цілеспрямованих дій і прийняття рішень. Характеристика методу повного перебору - універсального методу вирішення оптимізаційних задач, якщо множина допустимих рішень обмежена. Експоненційна складність евристичного пошуку. Складність алгоритмів.
реферат [62,2 K], добавлен 13.06.2010Клавіатурний тренажер - вид програмних додатків або онлайн-сервісів, призначених для навчання набору на комп'ютерній клавіатурі. Інкапсуляція - приховування деталей про роботу класів від об'єктів, що їх використовують або надсилають їм повідомлення.
курсовая работа [1,7 M], добавлен 20.05.2017Розробка і впровадження комплексної автоматизованої системи підтримки логістичних процесів підприємства торгівлі лікарськими препаратами. Підвищення ефективності роботи всіх підрозділів компанії, забезпечення ведення обліку у єдиній інформаційній системі.
курсовая работа [27,3 K], добавлен 02.03.2009Аналіз відомих підходів до проектування баз даних. Ієрархічна, мережева та реляційна моделі представлення даних, їх особливості. Концептуальне проектування: приклад документів, побудова ER-діаграми, модель "сутність-зв'язок". Побудова фізичної моделі.
курсовая работа [541,5 K], добавлен 29.01.2013Структури даних як способи їх організації в комп'ютерах. Підтримка базових структури даних в програмуванні. Дерево як одна з найпоширеніших структур даних. Бінарні дерева на базі масиву. Створення списку - набору елементів, розташованих у певному порядку.
контрольная работа [614,7 K], добавлен 18.02.2011Напрямки використання інформаційно-комунікаційних технологій в процесі навчання студентів. Визначення шляхів залучення комунікаційних мереж і сервісів в систему вищої освіти. Побудова функціонально-інформаційної та техніко-технологічної моделі деканату.
дипломная работа [6,4 M], добавлен 27.01.2022