Разработка модели обнаружения компрометации банковских транзакций

Разработка комплексных подходов обнаружения скомпрометированных банковских транзакций на основании ряда их признаков с помощью методов машинного обучения и других аналитических моделей. Анализ банковских операций, включая все их виды и особенности.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 07.12.2019
Размер файла 4,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное государственное автономное образовательное учреждение высшего образования

Национальный исследовательский университет

"Высшая школа экономики"

Факультет: Бизнеса и менеджмента

Выпускная квалификационная работа

по направлению подготовки Бизнес-Информатика

Разработка модели обнаружения компрометации банковских транзакций

Пьянов Родион Альбертович

Аннотация

Выпускная квалификационная работа посвящена разработке комплексных подходов обнаружения скомпрометированных банковских транзакций на основании ряда их признаков с помощью методов машинного обучения и других аналитических моделей. В рамках исследования был проведен анализ банковских операций, включая их виды, особенности и доступные данные о каждом платеже, а также рассмотрены различные методы решения задачи классификации и обнаружения редких событий, такие как логистическая регрессия, наивный Байесовский классификатор, метод К-ближайших соседей, метод опорных векторов, деревья решений, адаптивный бустинг и случайные леса. По итогам проведенного анализа были сформированы требования к результирующим моделям и подходам к обнаружению мошеннических операций.

На основании проведенного исследования сформирован ряд математических моделей, объединенных в комплексные аналитические подходы, позволяющие детектировать потенциально скомпрометированные банковские транзакции. Сформированные подходы были протестированы на основании открытых реальных данных, содержащих обезличенную информацию о банковских транзакциях, совершенных держателями банковских карт из Европейского Союза. По итогам апробации, данными моделями была продемонстрирована достаточно высокая предсказательная способность, при которой модели удавалось обнаружить примерно 80% мошеннических операций и достичь уровень F-меры боле 0,86.

Полученные комплексные подходы нацелены на использование в качестве алгоритмов проверки транзакций для систем классов Fraud Prevention и Fraud Detection. банковский транзакция аналитический

Ключевые слова:

Обнаружение компрометации банковских транзакций; Мошенничество с банковскими картами; Предотвращение мошеннических операций; Компрометация банковских транзакций; Fraud detection; Fraud Prevention, Алгоритмы обнаружения мошеннических сделок.

Оглавление

Введение

1. Анализ предметной области

1.1 Особенности процесса выявления компрометации транзакций

1.2 Анализ видов мошенничества с банковскими операциями

2. Формирование гипотез и требований к разрабатываемой модели

2.1 Подходы к анализу данных о банковских операциях

2.2 Использование метода Монте-Карло для определения качества модели

3. Реализация модели

Заключение

Список источников

Приложения

Введение

Совершаемые мошеннические банковские операции в современном мире приводят к значительным потерям, которые несут сами кредитные организации, их клиенты, финансовые организации, торговые предприятия и экономика в целом. По данным Европейского центрального банка, в 2016 году потери от мошеннических транзакций, совершенных в рамках платежей в евро составили порядка 1,8 миллиарда евро, из которых 73% совершено с использованием платежей без предъявления карт (например, платежей через интернет, с использованием мобильного банкинга и т.д.), 19% совершено через терминалы конкретных точек продаж и лишь 8% - с использованием банкоматов. [1] Более того, как можно увидеть из диаграммы ниже, за последние годы объем потерь от скомпрометированных транзакций показывает уверенный рост (Рисунок 1).

Рисунок 1. Динамика объема потерь от мошеннических операций по данным Европейского центрального банка [1]

По данным финансового издательства "Nilson Report", объем всех преступлений с банковскими картами в 2017 году составил более 24,26 миллиарда долларов США. Более того, по прогнозам аналитика Девида Робертсона, являющегося сотрудником данного издательства, потери вырастут к 2022 году до 34,66 миллиардов долларов США. [2]

В рамках Российской экономики данная тенденция также находит свое отражение. Банковская отрасль в части распространения таких платежных инструментов, как пластиковые карты, в России на сегодняшний день активно развивается. В 2018 году по сравнению с 2017 годом объем платежей клиентов кредитных организаций возрос с 23,9 трлн. рублей до 36,1 трлн. рублей. При этом количество выпущенных платежных карт за этот период увеличилось с 14,4 млрд. до 20,6 млрд. единиц. [3] Число скомпрометированных операций и объемы мошенничества с использованием платежных карт также увеличивается. По данным компании "Информзащита", количество краж с использованием пластиковых карт только в среде Интернет с 267 тыс. в 2016 году возросло практически до 300 тыс. в 2017 году. По прогнозам экспертов системного интегратора "Информзащита", число интернет-краж в 2018 году вырастет еще на 5%. [4] Более того, по данным организации FICO [5] значения потерь от скомпрометированных транзакций в России за 2017 год составили более 5,5 млрд. рублей, что делает Россию одной из с стран с быстрорастущими объемами потерь от мошенничества с банковскими операциями.

В связи с обозначенными причинами, а также развитием информационных технологий, значительное развитие в последние годы получили информационные системы класса Fraud Prevention и Fraud Detection, которые позволяют банкам отслеживать, выявлять и предотвращать совершение потенциально скомпрометированных банковских операций. На российском рынке данная область начала регулироваться 27 июня 2018 года с выходом Федерального Закона Российской Федерации "О внесении изменений в отдельные законодательные акты Российской Федерации в части противодействия хищению денежных средств" N 167-ФЗ. Положения данного Федерального Закона предоставили российским кредитным организациям требования к "обеспечению защиты информации при осуществлении банковской деятельности в целях противодействия осуществлению переводов денежных средств без согласия клиента". [6] Таким образом, кредитные организации получили возможность производить предупредительные меры, способствующие недопущению проведения потенциально мошеннических операций. Вследствие этого для банковских организаций значительно возрастает актуальность и необходимость в интеграции и развитии различных информационных систем, которые позволили бы проводить анализ произведенных транзакций на предмет потенциальной компрометации, как в режиме реального времени, так и в рамках последующего анализа. Необходимость в развитии такого рода систем и подтверждает актуальность настоящей работы, целью которой является сокращение объемов потерь от мошеннических операций. Таким образом объектом проводимого исследования являются, непосредственно, банковские транзакции, в то время как предметом анализа выступает компрометация, то есть подделка данных операций.

Разработка такого рода модели требует значительного изучения как банковских операций, так и современных методов анализа данных, в том числе, алгоритмов машинного обучения. Также стоит учитывать, что данная модель должна обладать достаточно высоким уровнем точности. Для достижения этих целей в рамках данной работы будут выполнены следующие задачи:

Прежде всего, необходимо проанализировать сферу банковских операций, включая их виды, особенности и доступные данные о каждой транзакции, которые позволят банку определить проводить их анализ на предмет компрометации.

Затем, необходимо рассмотреть существующие методы анализа данных, которые могут быть использованы для построения модели обнаружения компрометации транзакций, а также доступные источники, содержащие информацию по методам классификации банковских транзакций с использованием различных математических, статистических и иных подходов. Выявленные методы анализа должны быть классифицированы, а также для них должны быть определены их преимущества, недостатки, и определена их пригодность для решения задачи такого рода.

Следующий шаг предполагает формирование требований и гипотез, на основании которых будет производиться построение результирующей модели. В рамках данного этапа необходимо выявить факторы, которые потенциально могут быть входящими данными для разрабатываемой модели.

На завершительном этапе работы будет произведено построение модели с использованием методов и гипотез, сформированных на предыдущих этапах, а также проверка точности построенной модели. Сформированная модель должна быть обучена и опробована на реальных (или близких к реальным) данных.

1. Анализ предметной области

1.1 Особенности процесса выявления компрометации транзакций

В рамках данной работы основным объектом исследования являются непосредственно различные банковские операции, информация о которых подлежит изучению, с целью выявления компрометации. В целом, при проведении анализа банковских транзакций, как правило рассматриваются транзакции различных типов и классов.

На сегодняшний день, кредитными организациями ежедневно производится обработка значительного количества транзакций, совершаемых физическими и юридическими лицами. Например, в течение 2017 года на территории Европейской торговой зоны было совершено более 36,5 миллиардов платежей только с использованием платежных карт. [7] Таким образом, можно сделать вывод, что каждый день европейскими банковскими организациями проводится более 100 миллионов операций. Из этого вытекает одна из основных особенностей проведения исследования относительно банковских операций - их значительные объемы даже в достаточно небольших промежутках времени. Обработка таких объемов данных является достаточно трудозатратной даже для наиболее современных технических средств, таких как суперкомпьютеры.

Значительные объемы анализируемых данных являются не единственной сложностью при выявлении идентификаторов компрометации при проведении изучения транзакций. Другой серьезной сложностью в процессе выявления компрометированных транзакций является значительная несбалансированность исходных данных. Согласно годовому отчету Европейского центрального банка, в течение 2016 года обороты скомпрометированных транзакций составили всего лишь 0,041% от общего оборота средств в рамках произведенных операций. Таким образом, можно заключить, что на фоне всех совершенных сделок, те, которые должны использоваться для выявления мошенничества составляют крайне малую часть и могут считаться "редкими событиями". Таким образом, при построении любой математической или статистической модели не рационально будет использование классических методов оценивания качества предсказаний данной модели, которые, как правило учитывают величины, так называемых, статистических ошибок 1 и 2 рода. [8] При использовании таких методик довольно значительная часть точности модели будет основываться исключительно на тех транзакциях, фальсификация или компрометация которых отсутствует. При данном подходе даже модель, которая для каждой транзакции будет проставлять признак "не является скомпрометированной" будет иметь достаточно высокую верность - около 99,959%, что, тем не менее, не говорит о том, что данная модель является с достаточной степенью точной или эффективной. Таким образом, при построении модели и проверке ее качества не могут быть использованы стандартные применяемые для аналогичных моделей метрики. В частности, в таких моделях не может быть использована такая метрика, как "верность" (Accuracy). Для каждого случая важно изучить не только точность (правильные классифицированные экземпляры), но также чувствительность (правильные классифицированные мошеннические случаи) каждого случая, так как стоимость ошибки при неправильной классификации мошеннических экземпляров выше, чем цена ошибки при неправильной классификации законных экземпляров. [9] [10]

Другой особенностью при работе с данными о банковских операциях можно назвать недоступность актуальных реальных данных. Это обусловлено рядом сложностей с обработкой данных и нежеланием финансовых компаний предоставлять репрезентативную информацию в открытый доступ. Прежде всего, данная информация может повлечь за собой нарушения различных законодательных требований, связанных с сохранением коммерческой тайны, а также с защитой персональной информации о своих клиентах. Более того, при открытии значительных объемов информации о операциях, она может быть использована как исследователями для разработки моделей по выявлению и предотвращению мошенничества, так и непосредственными злоумышленниками для составления более развитых алгоритмов для компрометации транзакций, которые будут еще более сложны в детектировании и предотвращении с помощью разрабатываемых алгоритмов. Данная проблема является одной из самых серьезных при проведении такого рода исследований и отмечается достаточно значительным количеством исследователей в данной области. [9]

Наряду с указанными выше особенностями необходимо также учитывать тот факт, что при проведении анализа операций, совершаемых клиентами банковских организаций необходимо рассматривать не только статичные данные о проводимых транзакций, но и весь процесс в динамике. Данное требования к разрабатываемой модели вызвано тем фактом, что с течением времени мошенниками всегда находятся новые способы компрометации транзакций. [10] [11] Таким образом, если модель уже обучена для выявления известного типа компрометации, при появлении нового используемого мошенниками подхода, данная модель должна быть переобучена. Также если в модели учитывается анализ поведения клиента, то стоит также учитывать, что данные поведенческие особенности также могут изменяться с течением времени, но не являются статичными.

Процесс проведения и проверки банковских транзакций

При совершении каждой банковской транзакции происходит достаточно сложный процесс по проверке ее подлинности и передаче информации многими сторонами. Как правило большая часть банковских транзакций проводятся с использованием специализированных систем, называемых платежными системами.

В целом можно выделить несколько типов операций с банковскими картами, которые требуют достаточно высокой степени защищенности. К таким типам относятся:

· Снятия наличных с банкоматов;

· Оплата товаров и услуг;

· Переводы с карты на карту (как в рамках одного банка, так и переводы с карты одного банка на карту другого банка).

Все перечисленные выше виды операций являются отдельными подвидами более глобальной услуги, которая предоставляется банковскими организациями - процесса эквайринга. Эквайринг - это вид финансовой услуги, предоставляемой кредитными организациями, которая заключается в проведении безналичного расчета, как правило, с использованием банковских карт. Упрощенный процесс проведения сделок с использованием услуги эквайринга отражен на рисунке ниже (Рисунок 2).

Рисунок 2. Процесс проведения операции

Сам процесс представляет собой последовательность следующих шагов:

1. Владелец банковской карты авторизуется, используя свой ПИН-код;

2. Данные о клиенте (счете клиента) в зашифрованном виде направляются в процессинговый центр банка, предоставляющего услугу эквайринга;

3. Через платежную систему производится попытка списать необходимую сумму со счета держателя карты в банке-эмитенте;

4. Если на счете клиента банка достаточно средств, то производится перевод средств на расчетный счет мерчанта и выдача подтверждающих документов (чеков/выписок).

Аналогичным образом производятся Интернет-платежи (то есть платежи с использованием интернет-эквайринга), платежи с использованием смартфонов и выдача наличных в банкоматах. При этом, если поставщик услуг эквайринга совпадает с банком-эмитентом, то данный процесс упрощается, так как уже не требуется привлечение третьей стороны для связи между двумя кредитными организациями в виде платежной системы.

Рисунок 3. Процесс проведения интернет-транзакции

Исходя из описанного выше процесса проведения транзакций, существует несколько последовательных проверок, которые производятся на различных этапах проведения банковской операции различными сторонами (Рисунок 4). [10]

Рисунок 4. Процесс проверки транзакции

На первом этапе проведения транзакции производится процесс аутентификации владельца карты, который нацелен на недопущение использования банковской карты третьими лицами. В случае торгового эквайринга или АТМ-эквайринга (выдача средств с помощью банкомата), как правило, используются такие средства защиты, как ввод ПИН-кода карты. Для Интернет-эквайринга использование ПИН-кода является значительно более рискованным, так как в случае перехвата пакета информации злоумышленники могут получить доступ неограниченный доступ к любым операциям по карте. Таким образом, при совершении Интернет-платежей, как правило используются следующие виды защиты:

· Специальные коды такие как CVV, CVN, CVC2, CID и др. (аналог ПИН-кода, предоставляющий ограниченный доступ);

· Двухфакторная аутентификация, при которой используется еще один канал подтверждения личности использующего карту (как правило, посредством одноразового пароля, направляемого с помощью СМС сообщения).

Далее на производятся дополнительные проверки, нацеленные на определение возможности провести транзакцию. Например, не заблокирован ли счет владельца карты в банке-эмитенте, достаточно ли на счету средств для совершения операции, поддерживаются ли операции в валюте сделки и пр.

Если транзакция проходит все проверки, описанные выше, то информация о совершаемой операции переходит на следующую стадию проверки. В рамках данного этапа анализа транзакции используется специальное программное обеспечение - системы по предотвращению мошенничества (класс систем Fraud Prevention). В рамках проверки данной системой производится определение вероятности, что данная транзакция является мошеннической, то есть скомпрометированной третьей стороной. Данная проверка может производиться на основании:

· Жестких алгоритмов оценки последней активности пользователя;

· Модели детектирования, обученной на предыдущих транзакциях (как правило, прогнозирование проводится отдельно для каждого из пользователей для формирования уникальной поведенческой модели с целью учесть все особенности операций, присущих данному конкретному владельцу карты). [12]

Обычно, для достижения максимальной точности данной проверки проводится комплекс проверок, как на основании заранее определенных алгоритмов, так и на основании обучаемых моделей. Таким образом, Fraud Prevention системы агрегируют результаты целого комплекса проверок, на основании результатов которых определяется вероятность компрометации каждой из транзакций. Если результирующая вероятность компрометации транзакций превышает определенный порог, то проведение операции блокируется банком-эмитентом карты и требует личного подтверждения со стороны держателя карты. Как правило, для такого подтверждения используется личный звонок владельцу карты.

Часто используется дополнительный уровень проверки подлинности банковской транзакции, производимый банком-эмитентом. В отличие от предыдущего шага проверки, который производится в рамках процесса обработки операции и направлен на быстрое принятие решения относительно вопроса принятия или отвержения операции, следующий этап проводится уже после совершения транзакции и проводится апостериорно. Данный этап проводится для недопущения совершения повторных скомпрометированных транзакций, если будет доказано, что совершенная ранее уже была подделана.

Так как данный этап не нацелен на скорость обработки данных, в рамках офлайн детектирования могут использоваться более сложные и долгие в обработке алгоритмы, обладающие при этом более высокой точностью. Программное обеспечение, которое нацелено на обеспечение данного уровня проверок транзакций на подлинность относится к другому классу систем - системам детектирования мошенничества (Fraud Detection). В рамках данных систем производится выявление новых мошеннических схем, более сложных последовательностей, формирование "портретов" держателей карт, а также предоставление данных для дообучения или переобучения моделей, используемых в рамках Fraud Prevention систем.

Наряду с использованием более совершенных алгоритмов, у второго уровня проверки компрометации транзакций существует еще одно значительное преимущество перед системами Fraud Prevention - работа с подтвержденными данными. На данном этапе может быть определена корректность работы первого уровня проверки транзакций, так как в случае проведения мошеннической транзакции - сообщение о компрометации рано или поздно будет направлено в банк для отмены проведения операции. Также и с транзакциями, которые были отсечены как потенциально скомпрометированные - если они были подтверждены держателями карт, то можно будет провести анализ, по какой причине, данная транзакция была отменена. Таким образом, данные системы позволяют проводить более глубокий анализ ошибок первого и второго рода - то есть анализ ложно положительных и ложно отрицательных решений, принятых при обработке операции. [13]

1.2 Анализ видов мошенничества с банковскими операциями

Вследствие целого ряда причин мошенничество с использованием банковских платежных карт становится все более распространенным. Основной предпосылкой этому, безусловно, является значительное развитие данного платежного инструмента. С увеличением количества и объемов проводимых безналичных операций все тяжелее становится анализировать и выявлять мошеннические скомпрометированные транзакции на фоне огромного количества подлинных. Более того, с развитием сервисов дистанционного банковского обслуживания (ДБО), у злоумышленников вовсе пропадает необходимость покидать собственный дом или специально оборудованное рабочее место. [14]

На текущий момент принято разделять несколько основных видов мошенничества с банковскими картами:

· Платежи без предъявления банковской карты (card-not-present payments) - это те платежи, которые совершаются с использованием карточного счета, но в их процессе физическая карта не используется. Примером могут стать платежи через сеть Интернет, операции в рамках онлайн банкинга, транзакции мобильного банкинга, платежи с использованием мобильных эквайринговых сервисов (таких как Apple Pay, Google Pay и др.). Согласно данным Европейского центрального банка [1] компрометация платежей без предъявления физического носителя является наиболее распространенной и ее объем в 2016 году составил порядка 73% всех потерь от мошеннических операций.

· Платежи в непосредственных торговых точках (point-of-sale payments) - это операции по купле-продаже товаров и услуг в непосредственных торговых точках с использованием специализированных терминалов. В их число входят все покупки, совершаемые по картам в магазинах, ресторанах и других организациях. По статистике Европейского центрального банка [1], доля компрометации данных транзакций составила 19% от всех мошеннических операций.

· Последним видом мошенничества с кредитными картами, который составляет, примерно, 8% от всего объема скомпрометированных транзакций, является компрометация операций в банкоматах (ATM transactions) [1].

В рамках указанных видах мошенничества, злоумышленниками могут использоваться различные техники, позволяющие завладеть средствами со счета владельца платежной карты. К таким методикам относятся:

· Мошенничество с утерянными (украденными) банковскими картами. В рамках данного вида мошенничества часто происходит хищение средств в рамках совершения сделок через сеть Интернет или в непосредственных точках продаж.

· "Скимминг" - подход, при котором производится считывание данных карты с помощью специализированного прибора, аналогичного платежному терминалу. Если после считывания информации о платежной карте также выяснить ПИН-код, то данная схема позволит быстро завладеть большим объемом средств.

· Другой методикой является "фишинг", при котором с помощью социального инжиниринга злоумышленники пытаются перехватить ваши персональные данные, в том числе, данные о платежных картах.

· И другие. [14]

С точки зрения исторических данных, наиболее серьезной угрозой на сегодняшний день является мошенничество по платежам без предъявления физического носителя (то есть card-not-present платежи). За период с 2012 до 2016 года объем скомпрометированных банковских операций увеличился на 66,2% в абсолютном выражении. Доля данной категории компрометируемых транзакций также показывает уверенный рост, что видно из графика ниже (Рисунок 5). [1]

Рисунок 5. Динамика объема потерь от операций без предъявления платежных карт

Анализ доступных данных о банковских операциях

Каждая платежная система или банковская организация в рамках соей работы может хранить у себя абсолютно различный набор информации о производимых и обрабатываемых операциях. Это значительно может усложнять задачу формирования наиболее общей модели для анализа данных транзакций, в том числе, на предмет выявления компрометации.

Несмотря на то, что хранимые данные организаций, участвующих в процессе совершения транзакций, могут значительно разниться, при обработке каждой операции или платежа участвует сразу несколько организаций, вследствие чего требуется, чтобы информация, передаваемая между данными сторонами, являлась унифицирована в части состава и формата передачи. Для этих целей Международной Организации по Стандартизации (International Organization for Standardization, так же известной как ISO) был разработан специальный стандарт, который определяет требования к составу и формату информации, передаваемой в процессе коммуникации участниками финансовых операций - ISO 8583 под названием "Financial transaction card originated messages - Interchange message specifications" или же "Сообщения о финансовых транзакциях с использованием карт - Спецификация процесса взаимообмена сообщениями". [15]

Международный стандарт ISO 8583 создан в соответствии со спецификациями обмена сообщениями о финансовых операциях, принятых широким сегментом индустрии платежей, в том числе эмитентами платежных карт и эквайерами. Данный стандарт содержит требования к структуре передаваемых электронных пакетов, их формату, набору передаваемых атрибутов и их допустимых значениях. Таким образом, для передачи и обработки информации каждая сторона должна иметь информацию не менее перечисленной в указанных в стандарте требованиях. Данный факт позволит для формирования модели выявления компрометации банковских операций использовать информацию, зафиксированную в стандарте ISO 8583, так как благодаря этому полученная модель может использоваться любой стороной совершения операций.

Согласно стандарту, каждое сообщение о финансовой операции должно состоять из трех основных частей:

· Идентификатор типа сообщения (message type identificator - MTI) - данный раздел содержит информацию о типе передаваемого сообщения, его отправителе и назначении;

· Битовая карта сообщения (bitmap) - раздел, определяющий состав информации, передаваемый в рамках сообщения;

· Элементы данных (data elements) - раздел, содержащий непосредственную полезную нагрузку сообщения, то есть саму передаваемую информацию. [15]

Ниже приведено более полное описание каждой из частей сообщения.

Идентификатор типа сообщения

Данный раздел представлен четырехзначным числовым полем, каждая цифра которого определяет свой атрибут, соответствующий типу сообщения. Первая цифра числового кода определяет версию стандарта, согласно которому сформировано данное сообщение. В рамках первой цифры допустимы следующие значения:

· 0ххх - Используется версия 1987 года;

· 1ххх - Используется версия 1993 года;

· 2ххх - Используется версия 2003 года;

· 3ххх-7ххх - Зарезервировано под специальные коды ISO;

· 8ххх - Используется на национальном уровне;

· 9ххх - Зарезервировано для частного использования.

Вторая цифра кода определяет непосредственный тип сообщения. Допустимые цифры позволяют выделять следующие типы сообщений:

· х 1хх - Сообщение авторизации (Authorization message). Данные сообщения несут технических смысл и направляются для проверки доступности всех сторон проведения транзакции без необходимости проводить финансовые операции.

· х 2хх - Финансовые сообщения (Financial message). В рамках данного типа сообщений передается непосредственная информация о проводимой операции, которая должна быть соответствующим образом обработана и проведена финансовыми организациями.

· x3xx - Сообщения для передачи файлов (File Actions Message). Данные тип сообщений используется для передачи файловой информации.

· x4xx - Отменяющее сообщение (Reversal Message). Каждое сообщение данного типа производит отмену предыдущей операции.

· х 5хх - Сообщение синхронизации (Reconciliation Message). Данный тип сообщений используется для передачи технической информации о передающей устройстве.

· х 6хх - Административное сообщение (Administrative Message). Административные сообщения используются для передачи технических сообщений, таких как сообщения об ошибках.

· x7xx - Сообщение о платеже (Fee Collection Message). Данные сообщения передают информацию о платежах.

· х 8хх - Сообщение сетевого управления (Network management message). Данные сообщения имеют техническую специфику и используются для настроек сети, безопасности и инфраструктуры.

· х 9хх - Зарезервировано ISO.

Таким образом, для решения задачи анализа непосредственных транзакций, будет производиться изучения данных, передаваемых в сообщениях с типом "х 2хх".

Третья цифра четырехзначного кода определяет непосредственную функцию данного сообщения и может иметь одно из следующих значений:

· хх 0х - Запрос (Request);

· хх 1х - Ответ на запрос (Request response);

· хх 2х - Подтверждение (Advice);

· хх 3х - Ответ на подтверждение (Advice response);

· хх 4х - Уведомление (Notification);

· хх 5х - Подтверждение получения уведомления (Notification acknowledgement);

· хх 6х - Инструкция (Instruction). Используется только версии стандарта 2003 года;

· хх 7х - Подтверждение получения инструкции (Instruction acknowledgement). Используется только версии стандарта 2003 года;

· хх 8х и хх 9х - Зарезервировано ISO.

Последняя цифра отображает сторону, которая сформировала и направила данное сообщение. В стандарте предусмотрены следующие стороны:

· ххх 0 - Эквайер;

· ххх 1 - Повторное сообщение эквайера;

· ххх 2 - Эмитент карты;

· ххх 3 - Повторное сообщение эмитента;

· ххх 4 - Прочая сторона;

· ххх 5 - Повторное сообщение прочей стороны.

Битовая карта сообщения

Стандартом ISO 8583 предусмотрена возможность передачи более 100 различных параметров. При этом необходимо учитывать, что каждый тип сообщения требует исключительно индивидуальный набор атрибутов, которые должны быть заполнены.

Для реализации такого рода разделения информации между различными типами информации используются побитовые карты, которые представляю собой шестнадцатеричные восьми-байтовые коды. В двоичной системе данные коды преобразуются в нули и единицы, причем каждый бит несет информацию о том, присутствует ли соответствующий параметр или же атрибут в настоящем сообщении.

Элементы данных

Настоящий раздел содержит саму полезную нагрузку сообщения, то есть непосредственные значения параметров, указанных в битовой карте сообщения. Так как количество допустимых параметров достаточно велико (более 120), рассматривать каждый параметр и требования к нему в отдельности не имеет смысла в рамках настоящей работы, ниже будет приведена лишь агрегированная информация, которая может быть использована при анализе данных о совершаемых операциях.

В рамках каждой финансовой операции передается следующая информация:

· Информация о карте (в том числе, номер карты, номер счета и т.д.)

· Информация о второй стороне транзакции, в том числе:

o Информация о мерчанте (адрес, номер счета, категория продаваемой продукции и т.д.);

o Информация о терминале, с помощью которого проводится передача информации о сделке.

· Информация о самой операции, в том числе:

o Дата и время совершения операции;

o Место совершения операции;

o Валюта совершения сделки;

o Стоимость;

o И др.

· Дополнительная техническая информация. [15]

Выводы

В рамках настоящей главы был проведен анализ предметной области, а именно изучение особенностей банковских операций, которые должны учитываться в последующих главах работы при построении модели выявления компрометации банковских операций.

Прежде всего, было проведено изучение особенностей процесса выявления компрометации транзакций, которые оказывают значительное влияние на процесс построения аналитических моделей. В последующих главах работы особое внимание должно быть уделено выявленным особенностям, таким как огромные объемы данных, их крайняя несбалансированность, невозможность использования классических инструментов определения качества моделей и пр.

Также было проведено изучения всего процесса совершения банковской операции с использованием платежных карт, а также особенностей производимых проверок. Это позволило определить, какими именно сторонами и на каких этапах могут производиться проверки, то есть в рамках исследование были выявлены основные заинтересованные стороны данной работы.

Далее, в рамках данного исследования был проведен анализ основных видов мошенничества с банковскими организациями. Было выявлено, что наиболее популярным среди мошенников являются сделки без предъявления платежных карт, вследствие чего необходимо особое внимание уделять именно этому типу финансовых операций.

По результатам исследования можно заключить о наличии явной тенденции к росту объемов мошенничества с использованием банковских карт. Более того, с учетом таких особенностей процесса проверки транзакций, как все возрастающие объемы анализируемой информации и возникновения новых подходов к совершению операций, можно заключить о необходимости в развитии существующих алгоритмов проверки банковских операций и разработке новых методов и подходов к выявлению мошенничества.

2. Формирование гипотез и требований к разрабатываемой модели

2.1 Подходы к анализу данных о банковских операциях

Применимые методы анализа

В рамках исследований, направленных на формирование моделей и систем по выявлению мошеннических транзакций применяется значительное число различных методик и алгоритмов. Ряд работ направлен на изучение поведенческих особенностей и формирование непосредственных последовательностей действий (то есть процессов) для выявления скомпрометированных операций, в то время как большинство исследований направлено на построение специализированных статистических моделей, выявляющих мошеннические (или потенциально мошеннические) операции.

Согласно Richard J. Bolton и David J. Hand, техники и методики обнаружения компрометации данных являются одной из наиболее важных составляющих для предотвращения мошенничества. [16] Авторы работы рассматривают мошенничество в достаточно широком смысле и изучают подходы к его выявлению и предотвращению в следующих областях:

· Мошеннические операции с банковскими картами;

· Операции по легитимации средств (money laundering);

· Компрометация в телекоммуникационной отрасли;

· Взлом компьютерных систем;

· Мошенничество в сфере медицины и науки.

Обобщая, в рамках данного обзора рассматривается компрометация любых данных, доступных в потранзакционном виде. Транзакции являются объединяющим звеном во всех рассмотренных областях. Так как формирование единой модели, способной выявлять и предотвращать проведение не легитимных транзакций во всех возможных областях, использующих транзакционные данные не является рациональным ввиду более низкого качества созданной модели, различными организациями использующими ее, а также так как оно выходит за пределы рассматриваемой в рамках настоящей работы области, будет проведен анализ исключительно способов анализа данных о операциях с банковскими картами.

Согласно авторам обзора, что также подтверждается исследованиям, произведенным в рамках первой главы настоящей работы, при исследовании операций с банковскими картами существует несколько видов операций, при которых мошенники имеют различные особенности поведения злоумышленников. Примером такому могут стать различия в подходах к компрометации сделок в операциях с предъявлением банковской карты (например, мошенничество с использованием POS-терминалов) и операции без предъявления физического носителя (card-no-present fraud). Тем не менее, так как основными потребителями, заинтересованными в выявлении скомпрометированных транзакций, являются сами платежные системы и банковские организации, для унификации подходов к анализу банковских операций может быть использована единая база операций, имеющаяся у банков и платежных систем. Richard J. Bolton и David J. Hand отмечают, что в таких базах данных информация может быть представлена в различном виде в зависимости от информации о сделке, которая содержится в базе данных. Часть атрибутов может быть представлена в числовом или же количественном виде, другая часть может описываться номинальными или качественными атрибутами.

Авторами исследования отмечается, что с целью выявления мошеннических операций (в том числе, банковских), одними из самых действенных методов выступают статистические инструменты, а также модели, используемые в рамках направления Науки о данных (Data science). В данной сфере для выявления скомпрометированных операций может быть использован целый ряд инструментов и методик.

Одной из моделей является анализ поведенческих паттернов, в рамках которых может рассматриваться подходы к использованию денежных средств каждым клиентом во времени или же распределение трат владельцев карт между различными категориями приобретаемых товаров или услуг. Также в рамках анализа поведенческих особенностей клиентов могут использоваться и жесткие правила, выявляющие компрометацию (например, внезапное совершение множества мелких покупок в магазинах техники или ювелирных салонах). Тем не менее, изучения поведенческих паттернов являются более теоретическими и не содержат конкретных моделей.

Другим направлением изучения банковских операций является более глубокий анализ данных для выявления скрытых зависимостей признака компрометации операций от параметров транзакций. В рамках данных методов принято выделять два основных класса:

· Методы обучения "с учителем";

· Методы обучения без учителя. [16]

Более детальное описание данных методов приведено ниже.

Методы обучения "с учителем", как правило, применяются для ситуаций, в которых для всей имеющейся выборки присутствует:

· Полное описание каждого объекта или эксперимента (то есть все независимые переменные);

· Для всех объектов или экспериментов имеющейся обучающей выборки известны значения зависимой переменной.

В рамках обучения с учителем производится анализ статистических зависимостей и корреляций между значениями зависимой переменной и всеми предикторами модели при известных видах заивисмостей. Таким образом, при использовании данных методов происходит обучение модели на основании двух векторов: X и Y, где X - n-мерный вектор, содержащий значения предикторов модели.

Примерами методов обучения "с учителем" могут стать такие модели как:

· Линейная регрессия;

· Логистическая регрессия;

· Методы классификации;

· И др.

При использовании методов обучения без учителя производится анализ объектов и экспериментов исключительно на основании их внутренних свойств. В рамках данных методов анализа производится выявления внутренних особенностей и зависимостей между предикторами модели. Таким образом, при использовании алгоритмов обучения без учителя производится оперирование только значениями вектора X при неизвестных значениях зависимой переменной (и, как правило, при неизвестной зависимой переменной вовсе).

Примерами таких подходов могут стать следующие методы:

· Кластеризация объектов;

· Методы сокращения размерности данных;

· И др.

Так как в рамках настоящей работы проводится достаточно конкретное исследование в области анализа банковских транзакций, то наиболее подходящими для решения поставленных задач являются именно методы обучения с учителем. Для данных методов в рамках работы известна зависимая переменная - признак компрометации операции и ее значения известны в рамках используемых данных (подробное описание исходных данных приведено в дальнейших разделах работы).

В существующих научных работах исследователями используется значительное число различных статистических методов анализа данных, однако все эти методы являются методы анализа с учителем. Данный факт легко объясняется спецификой изучаемой задачи, а именно выявления мошеннических транзакций, которая является подклассом задачи классификации, в которой имеется два основных изучаемых класса:

· Легитимные транзакции - транзакции, не являющиеся мошенническими, и составляющие большую часть всех операций;

· Скомпрометированные транзакции - транзакции, совершенные мошенниками.

Логистическая регрессия

Изучаемые в рамках поставленной задачи классы могут быть также интерпретированы и другим образом при рассмотрении их, как возникновение или не возникновение события или же отнесение / не отнесение события к конкретному классу. В данном случае, изучаемым событием является признание операции мошеннической, то есть отнесение операции к классу скомпрометированных транзакций. Таким образом, отсутствие события можно принять за 0, а возникновение события за 1. Искомая модель при этом должна производить определение вероятности возникновения данного события. Данная вероятность может принимать значение от 0 до 1 включительно.

Примером модели, определяющей вероятности возникновения события "признание транзакции скомпрометированной" является достаточно базовая статистическая модель - логистическая регрессия.

Модель логистической регрессии является разновидностью множественной регрессии и основывается на предположении о наличии зависимости вероятности возникновения события (то есть вероятностью отнесения к изучаемому классу) от линейной комбинации независимых переменных. [16] [17] Таким образом, зависимость может быть выражена следующим образом:

Формула 1. Уравнение зависимости логистической регрессии

При использовании логистической регрессии вероятность возникновения изучаемого события рассматривается как непрерывная с допустимыми значениями на отрезке [0; 1] для любых значений независимых переменных. При этом уравнение зависимости является уравнением логистической кривой, то есть выглядит следующим образом:

Формула 2. Уравнение логистической регрессии

, где

Таким образом, в рамках построение модели логистической регрессии производится подбор параметров , при которых качество предсказания модели является максимальным. Получив обученную модель на основании значений предикторов для каждой записи о банковской операции, можно определить вероятность того, что она относится к классу скомпрометированных.

Данная модель использовалась в ряде исследований, связанных с обнаружением мошеннических банковских операций. Например, Shen A., Tong R., Deng Y в своей работе производили анализ операций с банковскими картами на предмет выявления мошеннических с помощью трех методов:

· Нейронная сеть;

· Дерево решений;

· Логистическая регрессия. [18]

При этом стоит упомянуть, что логистическая регрессия показала достаточно высокое качество полученных результатов

Методы классификации

К-ближайших соседей

Так как задача выявления скомпрометированных банковских транзакций является частным случаем задачи классификации, наиболее распространенными методами ее решения является использование различных моделей классификаторов. Одной из наиболее часто используемых методик данного класса является классификация К-ближайших соседей (K nearest neighbors, KNN). Данный подход является одним из простейших непараметрических процедур, решающих задачу классификации. [19] Данный подход используется для случаев, когда невозможно определить для данных функцию плотности, но при этом имеется достаточно качественный набор корректно классифицированных выборок. Таким образом, решение при классификации принимается на основании присвоенных классов для соседних наблюдений. Согласно данной методике, неклассифицированной выборке присваивается класс, представленный большинством из его k ближайших соседей в обучающем наборе. [20] Более того, если размер контрольной выборки равен N, то доказано, что при определении класса на основании k ближайших наблюдениях таким образом, что k/N 0, то коэффициент ошибки использовании методики К-ближайших соседей стремится к оптимальному коэффициенту ошибок Байеса. [19]

Более наглядно алгоритм работы данного метода анализа для случая классификации наблюдений в двухмерном пространстве отражен на рисунке ниже (Рисунок 6).

Рисунок 6. Пример работы алгоритма К-ближайших соседей

В данном примере производится анализ и классификация наблюдения, отмеченного зеленой точки на двумерной плоскости. При этом известны два класса наблюдений: "Класс 1" (наблюдения отмечены синими квадратами) и "Класс 2" (наблюдения отмечены красными треугольниками). Для классификации используется алгоритм классификации K-ближайших соседей. На изображении приведен пример с двумя возможными значениями коэффициента k (количество соседних наблюдений, на основании которых производится определение класса).

При значении коэффициента равного 3 классификация производится на основании трех ближайших наблюдений (то есть в рамках окружности, отмеченной непрерывной линией). В данном радиусе присутствует два наблюдения Класса 2 и одно наблюдение Класса 1. Таким образом, изучаемому наблюдению присваивается Класс 2, так как он представлен максимальным количеством экземпляров на данном радиусе. При этом, если в рамках исследования будет использоваться значение коэффициента k = 5, то в рамках алгоритма будет использоваться уже окружность, отмеченная пунктирной линией. В данной области уже присутствует три экземпляра Класса 1 и два экземпляра Класса 2. Таким образом, изучаемому наблюдению будет присвоен Класс 1.

В рамках метода классификации К-ближайших соседей помимо значения коэффициента k, не менее важную роль играет и другой фактор - подход к определению расстояния между наблюдениями. В приведенном выше примере используется классическое расстояние для двумерного пространства - Евклидово расстояние. В рамках данного подхода определение расстояния происходит на основании следующей формулы:

Формула 3. Определение Евклидового расстояния

При этом, данный подход к определению расстояния является частным случаем более общего подхода к определению расстояния - расстояния Минковского, которое определяется как:

Формула 4. Определение расстояния Минковского

Где , так как в противном случае нарушается неравенство треугольника. При стремлении значения p к бесконечности, данная метрика обращается в расстояние Чебышева. [21]

Классификатор на основании алгоритма К-ближайших соседей для детектирования скомпрометированных транзакций рассматривался в работе Д. ДЖ. Хенда и В. Винчиотти. [22] В данном исследовании рассмотрена проблема использования данного рода классификаторов с крайне несбалансированными классами. В результате сделан вывод, что при использовании данного подхода крайне важным является подбор корректного параметра k - то есть количества соседей, на основании которых производится определение класса. В данной работе доказано, что при увеличении значения k монотонно возрастает вероятность присвоения мажоритарного класса, вследствие чего необходимо уделить значительное внимание определению данного показателя при построении модели.

При этом в рамках другой работы указан и значительный недостаток данного алгоритма, который заключается в существенном влиянии, которое оказывается на процесс обучения несвязанными факторами. Таким образом, крайне важно будет ограничить набор факторов, которые имеют значительную статистическую зависимость с классом наблюдения. [9]

Наивный Байесовский классификатор

Наивный Байесовский классификатор является одним из простейших вероятностных моделей классификации. Он основан на теореме Байеса с использованием строгих (или же наивных) предположений о независимости факторов.

При использовании данного подхода, согласно теореме Байеса, используется вероятностная модель принадлежности к определенному классу на основании условных вероятностей. Данная модель имеет следующий вид:

Согласно теореме Байеса, вероятность события A, при условии возникновения события B, при условии, что данные события являются независимыми, определяется по следующей формуле:

Формула 5. Значение условной вероятности согласно теореме Байеса

Пусть X - вектор предикторов модели, C - вектор возможных классов (в данной задаче С = [0, 1], то есть 0 - компрометация отсутствует, 1 - транзакция скомпрометирована).

Для классификации наблюдения на основании значения всех используемых в модели предикторов используется следующая формула [23]:

Формула 6. Формула классификации наблюдей согласно Наивному Байесовскому классификатору

То есть, в рамках данной модели максимизируется вероятность принадлежности наблюдения к классу при условии данных значений предикторов.

Так как данный классификатор является вероятностным, то принадлежность к классу определяется для каждого конкретного значения предиктора. Таким образом, наиболее качественные результаты для Наивного Байесовского классификатора могут быть достигнуты, когда предикторы являются номинальными величинами, а не количественными, так как совпадение количественных величин, а в особенности величин, связанных с денежными операциями, которые подразумевают достаточно высокий уровень уникальности каждой сделки, крайне маловероятно. Вследствие этого, для использования данного классификатора для задач классификации банковских операций требуется ввод дополнительной категоризации каждого из количественных показателей банковской транзакции.

Например, данной категоризацией может быть разделение значений на основании их группировки по определенным уровням, то есть, фактически, их классификации на основании принадлежности данных значений к выделенным диапазонам. Основанием для данной классификации могут стать промежутки на основании жестко заданных диапазонов или же на основании квантилей или перцентилей.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.