Разработка системы проверки данных клиентов банка на основе методов машинного обучения

Методы, которые используются для предотвращения мошенничества и, в частности, для работы с несбалансированными данными. Суть затрат на уровне класса и объекта. AdaBoost и его чувствительные к стоимости вариации. Изучение метода изотонической регрессии.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 16.09.2020
Размер файла 891,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Кроме того, практическая часть служит основанием для вывода о том, что калибровка чувствительных к стоимости моделей, значительно улучшает итоговое качество. При этом нельзя не упомянуть значительное ухудшение метрики ROC-AUC для всех построенных моделей, включая даже не чувствительные к стоимости. Возможно, причина этого кроется в том, что текущая модель и модели для этой работы обучались на разных наборах данных, а также в том, что в контексте этой модели используется US с целью искусственно повысить долю мошеннических операций в общей выборке.

Заключение

Подводя итоги работы, можно с уверенностью говорить о том, что цель данной работы, а именно, разработка модели машинного обучения, которая решает задачу верификации в онлайн-каналах с учетом стоимости различных решений, была выполнена в полном объеме.

Цель была выполнена благодаря выполнению нескольких задач. В результате обзора литературы были выделены причины проблемы, которая заключается в том, что использование чувствительных к затратам методов в антифроде не является распространенной практикой. Главной причиной, исходя из обзора, можно назвать малое количество открытых данных о мошенничестве и его стоимости, и, как следствие, довольно небольшой объем исследований, связанных с ним. Кроме того, обзор статей по теме помог сформировать используемые инструменты и методы:

различные вариации AdaBoost;

калибровка Платта и изотонической регрессией;

US, который позволяет работать с несбалансированными данными;

способы оценки моделей, подходящие для чувствительных к стоимости алгоритмов (Total cost, Savings, AUC-ROC, PSI);

Выполнение задачи сбора данных позволило проанализировать предикторы, а также определить необходимость использования US для обучения моделей. После построения моделей AdaC1, AdaC2, AdaC3, AdaBoost, CSDT, CSRP, AdaCG и AdaCS, а также двух откалиброванных вариаций каждой модели, был проведен сравнительный анализ моделей между собой, а также с моделью, которая работает в текущий момент, но не учитывает стоимости решений.

Главным выводом данной работы, который подтверждает поставленную гипотезу, можно назвать тот факт, что добавление стоимостей в процесс моделирования, увеличивает количество сохранённых средств, то есть уменьшает издержки. Это значительно упрощает интерпретацию модели для коллег со стороны бизнес-департамента и позволяет взглянуть на качество с другой стороны, избегая расчета прибыльности модели через сторонние средства.

При этом нельзя не упомянуть, что, несмотря на тот факт, что AdaBoost, не учитывающий затраты в процессе обучения, имеет наилучшие результаты с точки зрения Savings, стоит подвергать эти результаты определенному скепсису. Это связано с тем, что результаты этой модели нельзя назвать стабильными, то есть в некотором смысле получение таких высоких показателей является скорее случайностью, чем постоянным поведением модели.

Вторая по качеству модель CSRP также оставляет некоторые сомнения, так как заметен значительный перепад в качестве между обучающей и тестовой выборкой, что говорит о переобучении. Таким образом, примерно одинаково успешными оказались все чувствительные к затратам модели AdaBoost, самой стабильной из которых оказалась модификация AdaC3, откалиброванная изотонической регрессией.

Сравнение её качества в разрезе потерь в разных классах объекта с другими не откалиброванными моделями подтвердило преимущество использования калибровки для решения задач антифрода, а также наглядно показало, за счет чего именно происходит понижение общих издержек. Это связано с тем, что откалиброванные алгоритмы в большей степени фокусируются на объектах положительного класса, то есть на тех, для которых стоимость неверной классификации выше, и, как следствие, понижают общие затраты, даже в ситуации, где издержки на не мошеннические объекты растут.

Практическая значимость данного исследования подтверждается не только с точки зрения добавления информации к довольно небольшому списку статей по теме, но и с точки зрения внедрения таких разработок в банке «Хоум Кредит», так как результаты этой работы заинтересовали часть коллег.

Несомненно, данное исследование необходимо углублять. Главной перспективой для будущей работы является добавление других моделей в анализ, например, вариаций AdaCG (AdaCG1 и AdaCG2), которое позволит охватить более широкий спектр методов и углубить некоторые выводы.

Другой перспективой является использование OS и тестирование моделей, обученных на таких данных, что позволит дополнительно проанализировать природу и закономерности в мошеннических операциях. Кроме того, существуют и другие методы US, помимо случайного US, использованного в этой работе, например, связи Томека или семейство методов NearMiss, которые, возможно, стоит использовать для сравнения в будущей работе.

Более того, существуют и другие методы калибровки предсказанного значения, которые не были использованы в работе, но, возможно, интересны в контексте будущего анализа и на предмет улучшения общего качества моделей, к примеру ROC-калибровка.

С точки зрения работы с данными существуют перспективы, связанные с более тщательным отбором и контролем качества предикторов, которые в рамках практики не были применены. Очевидно, что существование более чем 200 предикторов значительно увеличивает время на сбор данных и на само обучение моделей, что также является важным параметров с точки зрения практической деятельность. Помимо базовой проверки доли непустых значений, распределения и корреляции, можно использовать группировку для правил, которые показывают количество, или бинаризацию для непрерывных значений.

Таким образом, все эти методы можно использовать в качестве перспективных направлений будущих исследований.

Литература

1. European Central Bank. The fifth oversight report on card fraud, 2018.

2. Ling C.X., Sheng V.S. Cost-Sensitive Learning and the Class Imbalance Problem // In: Encyclopedia of Machine Learning / Ed. by Sammut C. Boston: Springer, 2010.

3. Sun Y., Kamel M.S., Wong A.K.C., Wang Y. Cost-sensitive boosting for classification of imbalanced data // Pattern Recognition, 2007. pp. 3358-3378.

4. Bhattacharyya, S., Siddhartha B., Sanjeev J., Kurian T., Westland C. Data mining for credit card fraud: A comparative study // Decision Support Systems, 2011. pp. 602-613.

5. Masnadi-Shirazi H., Vasconcelos N. Cost-Sensitive Boosting // IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011. pp. 294 - 309.

6. Maes S., Tuyls K., Vanschoenwinkel B., Manderick B. Credit Card Fraud Detection Using Bayesian and Neural Networks // Artificial Immune Systems: 7th International Conference. 1993. pp. 261--270.

7. Bahnsen A.C., Stojanovich A., Aouada D., Ottersten B. Cost Sensitive Credit Card Fraud Detection Using Bayes Minimum Risk // 12th International Conference on Machine Learning and Applications. Miami. 2013. Vol. 2.

8. Hulse J.V., Khoshgoftaar T., Napolitano A. Experimental perspectives on learning from imbalanced data // Proceedings of the 24th international conference on Machine learning. Bejing. 2007. pp. 935-942.

9. Kittler , Hatef , Duin , Matas J. On Combining Classifiers // IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE. 1998. Vol. 20.

10. Freund Y., Schapire R.E. Experimentswitha NewBoostingAlgorithm // Thirteenth International Conference on Machine Learning. Los Altos. 1996. pp. 148-156.

11. Joshi V., Kumar V., Agarwal R.C. Evaluating boosting algorithms toclassify rare classes: Comparison and improvements // First IEEE International Conference on Data Mining. San Jose. 2001.

12. Bahnsen A.C. Example-Dependent Cost-Sensitive Classification with Applications in Financial Risk Modeling and Marketing Analytics, September 2015.

13. Nikolaou. Cost-sensitive Boosting Algorithms: Do We Really Need Them // Machine Learning Journal, Vol. 104, No. 2, September 2016. pp. 359-384.

14. Ting K.M. A Comparative Study of Cost-Sensitive Boosting Algorithms // Seventeenth International Conference on Machine Learning. 2000. pp. 983-990.

15. Landesa-Vazquez I., Luis Alba-Castro J. Shedding Light on the Asymmetric Learning Capability of AdaBoost // Pattern Recognition Letters, Vol. 33, No. 3, February 2012. pp. 247-255.

16. Masnadi-Shirazi , Vasconcelos. Asymmetric Boosting, 2007.

17. Bahnsen A.C. Example Dependent Cost Sensitive Classification, 2015. P. 90.

18. Louppe G., Geurts P. Ensembles on Random Patches // European conference on Machine Learning and Knowledge Discovery in Databases. 2012. Vol. 1.

19. Bettinger R. Cost-sensitive classifier selection using the ROC convex hull method 2003.

20. Hernбndez-Orallo , Flach , Fer. ROC curves in cost space // Machine Learning, Vol. 93, February 2013. pp. 71-91.

21. Niculescu-Mizil A., Niculescu-Mizil A. Predicting good probabilities with supervised learning // Twenty-Second International Conference on Machime Learning. Bonn. 2005.

22. Platt J.C. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods 2000.

23. Zadrozna B., Elkan C. Learning and Making Decisions When Costs and Probabilities Are Both Unknown 2001.

24. Alec L.Z. Examining Distributional Shifts by Using Population Stability Index (PSI) for Model Validation and Diagnosis // SAS Conference. Long Beach. 2017.

Размещено на Allbest.ru


Подобные документы

  • Понятие доступности элементов класса и объекта. Обращение к полям на основе общедоступных свойств (инкапсуляция на основе свойств класса). Способы передачи данных в метод и возвращения результатов работы метода. Обращение к полям и свойствам класса.

    презентация [86,6 K], добавлен 09.12.2013

  • Понятие и структура банка данных. Основные структурные элементы базы данных. Система управления базами данных. Преимущества централизации управления данными. Понятие информационного объекта. Современные технологии, используемые в работе с данными.

    курсовая работа [1,8 M], добавлен 02.07.2011

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

  • Изучение работы баз данных - систематизированного набора записей и файлов, имеющих специальное предназначение. Характеристика СУБД, которые хранят и обрабатывают информацию на основе реляционной модели управления данными. Возможности Microsoft Access.

    реферат [699,7 K], добавлен 26.03.2010

  • Использование классификаторов машинного обучения для анализа данных. Создание модели, которая на основании параметров, влияющих на течение диабета, выявляет показатель возвращения больного в ухудшенное состояния после оказанного лечения (реадмиссию).

    дипломная работа [625,2 K], добавлен 10.06.2017

  • Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.

    дипломная работа [917,1 K], добавлен 31.01.2015

  • Рассмотрение различных дистрибутивов операционной системы. Изучение протоколов обмена данными и форматов физического хранения данных. Разработка дистрибутива на основе операционной системы Linux для функционирования в составе сетевого хранилища StarNAS.

    курсовая работа [1,6 M], добавлен 05.11.2015

  • Изучение основных понятий баз данных: структура простейшей базы данных, компоненты базы данных Microsoft Access. Проектирование базы данных "Туристическое агентство" в СУБД Access 2010, в которой хранятся данные о клиентах, которые хотят поехать отдыхать.

    курсовая работа [3,3 M], добавлен 20.09.2013

  • Особенности технологий создания и работы с базами данных. Реализация структуры базы данных в MS Visio и MS SQL Server. Виды манипуляций над данными, создание сложных запросов. Суть и характеристика прав пользователей, разработка клиентских приложений.

    учебное пособие [2,2 M], добавлен 16.05.2013

  • Разработка базы данных на поставку товаров по заказам клиентов, которая должна содержать сведения про клиентов; код, наименование и цену товара; номер и дату заказа. Формирование отчета о заказанных товарах и стоимости заказа в разработанной СУБД.

    курсовая работа [1,3 M], добавлен 18.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.