Оценка надёжности заёмщика банка в условиях неполноты информации
Банковская деятельность и кредитный риск. Информационная база управления кредитным риском. Повышение эффективности использования данных при моделировании кредитного риска. Автоматизация процесса преобразования данных. Методика сравнительного анализа.
Рубрика | Банковское, биржевое дело и страхование |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 23.09.2018 |
Размер файла | 1,8 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Дополнительным ограничением, связанным с количеством элементов в бакете может выступать ограничение концентрации. Для контроля уровня концентрации может быть использован индекс Херфиндаля-Хиршмена (Stephen A, 1993), пороговые значения для которого должны устанавливаться экспертно.
Некоторые нормативные документы и рекомендации (Siddiqi N, 2006) устанавливают требование линейной зависимости значения WoE от значений фактора, однако, в случае наличия логического обоснования нелинейной зависимости (как в примере из пункта 2.3) допускается нелинейная зависимость. В случаях же, когда требований линейности нет, и есть задача поиска нестандартных зависимостей, следует искать разбиения без учёта характера зависимости.
Алгоритм поиска разбиения
До начала поиска разбиения для всего набора данных задаются ограничения: минимальное число элементов в бакете.
Для каждой объясняющей переменной задаются ограничения: максимальная глубина дерева (пропорциональная максимальному возможному числу бакетов), требование линейности.
После задания ограничений начинается процесс поиска разбиений для данных, протекающий следующим образом. Для каждой объясняющей переменной выделяется поднабор данных, состоящий из объясняемой и текущей объясняющей переменной. Для созданного поднабора данных строятся однофакторные решающие деревья, глубиной не более заданной максимальной. Каждое следующее разбиение сравнивается с предыдущим лучшим по критерию информативности. Если новое разбиение превосходит лучшее и соответствует установленным ограничениям, то оно становится лучшим. Процесс построения деревьев повторяется, пока не будут перебраны все гипер-параметры. На рисунке ниже (Рисунок 5) приведена схема процесса поиска разбиений.
Рисунок 5 - Схема алгоритма поиска разбиения
Построение деревьев решений модифицировано с целью реализации возможности построения моделей на данных с пропущенными значениями. Так, если в поднаборе для определённой переменной есть пропущенные значения, то эти наблюдения выделяются из поднабора в отдельный бакет, для которого вычисляется WoE. Построение деревьев в таком случае осуществляется на поднаборе, из которого были исключены наблюдения с пропущенными значениями.
Таким образом для каждой переменной в исходных данных, где это возможно, получается разбиение в формате, приведённом выше в примере в пункте 2.3. В общем виде правила разбиения выглядят следующим образом:
Таблица 3. Общий вид правил разбиения
Значение исходной переменной |
Значение WoE |
|
Где - пороговые значения, границы бинов, строгость неравенств зависит от реализации. - соответствующие значения WoE-фактора.
Алгоритм применения разбиения
Применение разбиения происходит на обоих этапах. На этапе разработки разбиение применяется к исходных данным перед построением классификатора. На этапе применения разбиение применяется каждый раз при поступлении новых данных, по которым требуется получить модельные оценки. Будь то тестирование модели или её промышленная эксплуатация.
Применение разбиения выполняется следующим образом. Для каждой переменной исходные значения заменяются на WoE в соответствии с найденными правила разделения на бины.
Например, в процессе промышленной эксплуатации поступает выборка из 5 человек разных возрастов:
Таблица 4. Пример применения разбиения. Исходная выборка
ID наблюдения |
Возраст |
|
1 |
27 |
|
2 |
54 |
|
3 |
39 |
|
4 |
32 |
|
5 |
63 |
После применения правил разбиения, приведённых в пункте 2.3 данные трансформируются следующим образом:
Таблица 5. Пример применения разбиения. Преобразованная выборка
ID наблюдения |
WoE_Возраст |
|
1 |
-0,7621 |
|
2 |
-1,0135 |
|
3 |
-0,7621 |
|
4 |
0,7621 |
|
5 |
0,4665 |
После чего уже к преобразованной выборке, где значения возраста клиентов были заменены на соответствующие значения WoE-фактора, применяется обученный классификатор.
Инструментальные и программные средства
Реализация предложенного подхода возможна с использованием различным математических и программных средств.
Сглаживание Лапласа
При разбиении объясняющей переменной на бакеты возможно возникновении ситуации, когда в одном из них окажутся только «хорошие» или только «плохие» наблюдения. Тогда вычисление WoE станет невозможным из-за обращения знаменателя в ноль. Такая ситуация является очень редкой и её возникновение может быть вызвано ошибкой при проведении разбиения, например, когда не соблюдается требование минимального размера бакета. Однако, появление бакета, содержащего представителей только одного из двух классов может быть вызвано высокой разделяющей способностью рассматриваемой объясняющей переменной. В таком случае WoE вычислять необходимо, чтобы не потерять независимую переменную, обладающую хорошей разделяющей способностью.
Для предотвращения случаев невозможности вычисления WoE для бакетов, содержащих представителей исключительно одного класса может быть использовано аддитивное сглаживание (Chen, 1996). Тогда формула (2.3_4) для вычисления WoE принимает следующий вид:
(2.5_1)
Реализация на Python
Описанные во второй главе алгоритмы и формулы были реализованы в формате библиотеке на языке Python с использованием общедоступных библиотек: NumPy, Pandas, ScikitLearn (Сайт библиотеки Numpy, Сайт проекта Pandas, Сайт библиотеки scikit-learn [Электронные ресурсы]). Реализованная в рамках работы библиотека была опубликована под именем riskpy. Исходный код библиотеки размещён в репозитории GitHub (Git репозиторий проекта riskpy [Электронный ресурс]).
Глава 3. Моделирование надёжности заёмщика банка
3.1 Методика сравнительного анализа
Для проведения сравнения результатов построения и применения моделей была использована следующая методика.
Общее описание алгоритма
Для проведения сравнения подходов используется следующий алгоритм:
1. Набор данных разделяется на обучение и тест в отношении 7 к 3 (30% - тест) с сохранением среднего уровня целевой переменной в каждой из подвыборок.
2. На полученной выборке для обучения с использованием каждого из подходов строятся модели логистической регрессии.
3. Построенные модели применяются к тестовой выборке, предварительно преобразованной в соответствии с использованным при обучении модели подходом
4. Результаты применения различных подходов сравниваются по выбранным метрикам качества работы классификатора
Метрики качества
Для оценки качества работы получаемых моделей были использованы широко применяемые метрики, описываемые ниже.
Матрица несоответствий
Матрица несоответствий - табличное представление результатов работы алгоритма классификации. Каждый столбец матрицы - число экземпляров в прогнозируемом классе, строка - число экземпляров в действительном классе. Часто в задаче бинарной классификации объекты одного из классов называют "Хорошими" (англ. positive), а второго - "Плохими" (англ. negative), и на основании этих обозначений вводят следующие понятия: верно отнесённый к "хорошим" (True Positive, TP), ошибочно отнесённый к "хорошим" (False Positive, FP) - ошибка первого рода, верно отнесённый к "плохим" (True Negative, TN) и ошибочно отнесённый к плохим (False Positive, FP) - ошибка второго рода. (Stehman, 1997)
Ниже представлен пример матрицы несоответствий (Таблица 6).
Таблица 6. Матрица несоответствий и показатели
Предсказано |
||||
"Плохой" |
"Хороший" |
|||
На самом деле |
"Плохой" |
TN |
FP |
|
"Хороший" |
FN |
TP |
Precision
Точность (англ. precision) или прогностическая ценность предсказания в задачах классификации вычисляется как отношение числа верно отнесённых к классу "хороших" элементов к числу всех элементов, отнесённых моделью к этому классу. Точность показывает, насколько можно доверять классификатору в случае срабатывания, и вычисляется для каждого класса. Точность может быть вычислена как (3.1_1) (Powers, 2011)
(3.1_1)
Recall
Полнота (англ. Recall) - метрика, показывающая долю действительно относящихся к «хорошим» среди тех, кого к «хорошим» отнесла модель. Полнота показывает, на какой доле «хороших» объектов модель срабатывает. Аналогично точности полнота может быть вычислена для каждого класса. (Powers, 2011)
(3.1_2)
PR-кривая и AUC-PR
Как правило, precision и recall обратно связаны между собой, то есть когда растёт precision, падает recall, и наоборот. Для достижения оптимального баланса этих двух показателей используется Precision-Recall кривая, иллюстрирующая возможные пары значений precision-recall при различных порогах отсечения.
Для унифицированной оценки качества классификатора на основании PR-кривых используется метрика AUC-ROC, равная по своей величине среднему значению precision (sanchom, AVERAGE PRECISION [Электронный ресурс]).
ROC-кривая и AUC-ROC
ROC-кривая -- график, отображающий отношение доли объектов от общего количества объектов класса, верно классифицированных как представители класса, (англ. true positive rate, TPR) к доле объектов от общего количества объектов, не относящихся к классу, ошибочно отнесённых к классу (англ. false positive rate, FPR) при изменении порога отсечения. Кривая выходит из точки (0; 0) и приходит в точку (1; 1) (Рисунок 6).
Рисунок 6. Пример ROC-кривой
При этом, если существует идеальный классификатор, кривая должна пройти через точку (0; 1). Чем ближе кривая к этой точке, тем лучше будут оценки, а площадь под кривой будет характеризовать качество оценок принадлежности к первому классу. Такая метрика называется AUC-ROC, или площадь под ROC-кривой. (Powers, 2011)
Как было написано выше, ROC-кривая строится в осях FPR и TPR, которые нормируются на размеры классов:
(3.1_3)
Следовательно, при изменении баланса классов величина AUC-ROC и неизменных свойствах объектов выборки площадь под ROC-кривой не изменится. В случае идеального алгоритма AUC-ROC = 1, а в случае худшего:
Значение AUC-ROC имеет смысл вероятности того, что, если были выбраны случайный положительный и случайный отрицательный объекты выборки, положительный объект получит оценку принадлежности выше, чем отрицательный объект. (Powers, 2011)
Коэффициент GINI
Часто для оценки качества классификации использует коэффициент Джини. Коэффициент Джини изменяется от 0 до 1. Чем ближе его значение к нулю, тем более равномерно распределён показатель. В задаче классификации коэффициент Джини применяется для предсказания непрерывных величин. В задаче классификации высокий коэффициент Джини показывает, что классификатор хорошо разделяет "хороших" и "плохих", а низкий - классификатор почти не может их разделить. Коэффициент Джини может быть вычислен по формуле (3.1.6) (Powers, 2011):
(3.1_4)
3.2 Первый набор данных. Заявочный скоринг
В качестве первого набора данных были использованы заявочные данные клиентов из открытых источников.
Описание данных
В качестве первого набора данных был использован датасет с данными о выходе клиентов на просрочку, опубликованный в рамках соревнования по анализу данных (Kaggle [Электронный ресурс]).
Набор данных содержит следующие поля:
Таблица 7. Объясняющие переменные первого набора данных
Переменная |
Описание |
Тип |
|
SeriousDlqin2yrs |
Заёмщик вышел на просрочку 90+ |
Флаг |
|
Объясняющие переменные |
|||
RevolvingUtilizationOfUnsecuredLines |
Отношение общего баланса по кредитным картам и персональным кредитным линиям за исключением кредитов на недвижимость и без рассрочки (например, автокредитов) к общему кредитного лимита |
Процент |
|
Age |
Возраст заёмщика в годах |
Целое число |
|
NumberOfTime30-59DaysPastDueNotWorse |
Количество выхода заёмщика на просрочку 30-59 дней (но не хуже) за последние 2 года. |
Целое число |
|
DebtRatio |
Отношение ежемесячных платежей по кредитам, алиментов и расходов на проживание к валовому месячному доходу |
Процент |
|
MonthlyIncome |
Месячный доход |
Число |
|
NumberOfOpenCreditLinesAndLoans |
Число открытых кредитов (ипотека, автокредиты) и кредитных линий (например, кредитные карты) |
Целое число |
|
NumberOfTimes90DaysLate |
Количество выходов заёмщиком на просрочку 90+ |
Целое число |
|
NumberRealEstateLoansOrLines |
Число ипотек и кредитов на недвижимость, включая кредитные линии на собственный капитал. |
Целое число |
|
NumberOfTime60-89DaysPastDueNotWorse |
Количество выхода заёмщика на просрочку 60-89 дней (но не хуже) за последние 2 года. |
Целое число |
|
NumberOfDependents |
Количество иждивенцев в семье, исключая самого заёмщика (супруг, дети и т.д.) |
Целое число |
Всего наблюдений в наборе 150000. Статистика по пропускам следующая (Таблица 8):
Таблица 8. Первый набор данных. Пропуски
Переменная |
Наблюдений |
Заполненных значений |
Доля пропусков |
|
RevolvingUtilizationOfUnsecuredLines |
150000 |
150000 |
0,00% |
|
Age |
150000 |
150000 |
0,00% |
|
NumberOfTime30-59DaysPastDueNotWorse |
150000 |
150000 |
0,00% |
|
DebtRatio |
150000 |
150000 |
0,00% |
|
MonthlyIncome |
150000 |
120269 |
19,82% |
|
NumberOfOpenCreditLinesAndLoans |
150000 |
150000 |
0,00% |
|
NumberOfTimes90DaysLate |
150000 |
150000 |
0,00% |
|
NumberRealEstateLoansOrLines |
150000 |
150000 |
0,00% |
|
NumberOfTime60-89DaysPastDueNotWorse |
150000 |
150000 |
0,00% |
|
NumberOfDependents |
150000 |
146076 |
2,62% |
Для дальнейшего анализа разобьём имеющуюся выборку на обучение и тест: 30% - тест, 70% - обучение. Разбиение производится случайным образом с сохранением соотношения «плохие»/«хорошие», результат разбиения приведён в таблице ниже (Таблица 9).
Таблица 9. Первый набор данных. Разбиение на обучение и тест
Число наблюдений |
Доля «плохих» |
||
Обучение |
105000 |
0.0668380952381 |
|
Тест |
45000 |
0.0668444444444 |
Построение моделей
Построение моделей проводилось с использованием различных подходов к устранению пропусков.
Исключение пропусков
Из имеющихся выборок для обучения и тестирования были исключены наблюдения, содержащие пропуски. Получившиеся выборки для обучения и тестирования следующие:
Таблица 10. Первый набор данных. Исключение пропусков. Обучение и тест.
Число наблюдений |
Доля «плохих» |
||
Обучение |
84139 |
0.0692544479968 |
|
Тест |
36130 |
0.0700249100471 |
На новых выборках, не содержащих наблюдений с пропущенными значениями, была построена и протестирована модель логистической регрессии. Коэффициенты полученной регрессионной модели и ROC-кривая на тестовой выборке приводятся в приложении (Приложение 1. Модели первого набора данных: Таблица 21 и Рисунок 20). Полученная модель продемонстрировала на тестовой выборке разделяющую способность с Gini 0.3851, и средней точностью 0.2373
Заполнение пропусков в данных
На данном этапе исследования пропуски в данных были заполнены одним из следующих способов:
· Средними значениями соответствующих столбцов
· Нулями
· Средними или нулями, в зависимости от предполагаемого экономического смысла пропуска
Замена пропусков на нули и средние была произведена исходя из экономического смысла переменных. Так пропуски в переменной MonthlyIncome могут быть заменены на среднее значение из предположения, что доход заёмщиков, с большей вероятностью, не равен нулю. Пропуски в переменной NumberOfDependents были заменены нулями из предположения, что для заемщиков, не имеющих иждивенцев, данный признак мог быть не заполнен.
Графики ROC-кривых и коэффициенты в полученных моделях приводятся в приложении (Рисунок 21, Рисунок 22, Рисунок 23, Таблица 22, Таблица 23, Таблица 24).
В таблице ниже (Таблица 11) приводятся значения метрик качества построенных моделей:
Таблица 11. Метрики качества моделей без использования WoE
Заполнение пропусков |
GINI |
PRC-AUC |
|
Среднее |
0,3961 |
0,2407 |
|
Нули |
0,3925 |
0,2415 |
|
Среднее и нули |
0,3958 |
0,2401 |
Использование WoE
С учётом характеристик рассматриваемого набора данных существует три возможных сценария использования WoE:
· Заменить на WoE только те переменные, где есть пропуски
· Заменить на WoE все те переменные, где возможно найти значимое разбиение, и использовать только их
· Заменить на WoE все те переменные, где возможно найти значимое разбиение, и использовать в исходном виде те переменные, где разбиение не было найдено
Замена на WoE-факторы только тех переменных, где есть пропуски, является способом устранения пропусков в данных. Путём применения предлагаемого подхода, было получено следующее разбиение (Рисунок 7, Рисунок 8):
Рисунок 7. WoE-разбиение для переменной MonthltyIncome
Рисунок 8. WoE-разбиение для переменной NumberOfDependents
По представленным выше графикам полученных разбиений видна обнаруженная монотонная зависимость среднего уровня значений целевой переменной от бакета.
В результате отбора переменных и построения логистической регрессии были получены следующие оценки коэффициентов в модели (Таблица 12):
Таблица 12. Коэффициенты модели с заменой на WoE переменных с пропусками
Коэфф. |
Ст. ошибка |
p-value |
||
Intercept |
-1,5371 |
0,050 |
0,0000 |
|
Age |
-0,0271 |
0,001 |
0,0000 |
|
MonthlyIncome_woe |
-0,7755 |
0,052 |
0,0000 |
|
NumberOfTime30_59DaysPastDueNotWorse |
0,5018 |
0,013 |
0,0000 |
|
NumberOfOpenCreditLinesAndLoans |
-0,0078 |
0,003 |
0,0090 |
|
NumberOfTimes90DaysLate |
0,4801 |
0,018 |
0,0000 |
|
NumberRealEstateLoansOrLines |
0,0771 |
0,012 |
0,0000 |
|
NumberOfTime60_89DaysPastDueNotWorse |
-0,9498 |
0,021 |
0,0000 |
|
NumberOfDependents_woe |
-0,5759 |
0,071 |
0,0000 |
Полученная регрессионная модель показывает разделяющую способность с Gini = 0.4020. На рисунке ниже (Рисунок 9) приводится график ROC-кривой полученной модели:
Рисунок 9 - ROC-кривая модели с заменой на WoE переменных с пропусками
Однако, помимо устранения проблемы пропусков в данных замена на WoE-факторы может позволить учесть нелинейные зависимости и снизить влияние шума. С этой целью была произведена на WoE-факторы всех тех переменных, где удаётся найти значимое разбиение. Данная процедура так же позволяет на ранних стадиях исключить из анализа незначимые переменные. Ниже приводятся найденные WoE-разбиения по тем переменным, которые не были обработаны на предыдущем этапе (Рисунок 10 - Рисунок 14). Разбиение переменных MonthlyIncome и NumberOfDependents такое же, как на предыдущем этапе.
Рисунок 10. WoE-разбиение для переменной age
Рисунок 11. WoE-разбиение для переменной DebtRatio
Рисунок 12. WoE-разбиение для переменной NumberOfTime30_59DaysPastDueNotWorse
Рисунок 13. WoE-разбиение для переменной NumberOfOpenCreditLinesAndLoans
Рисунок 14. WoE-разбиение для переменной RevolvingUtilizationOfUnsecuredLines
банковский кредитный риск управление
На полученных WoE-разбиениях была построена модель логистической регрессии, оценки коэффициентов которой представлены в таблице ниже (Таблица 13):
Таблица 13. Коэффициенты модели с заменой на WoE всех переменных
Коэфф. |
Ст. ошибка |
p-value |
||
Intercept |
-2,6403 |
0,0150 |
0,0000 |
|
RevolvingUtilizationOfUnsecuredLines_woe |
-0,7786 |
0,0140 |
0,0000 |
|
age_woe |
-0,4405 |
0,0310 |
0,0000 |
|
NumberOfTime30_59DaysPastDueNotWorse_woe |
-0,7465 |
0,0150 |
0,0000 |
|
DebtRatio_woe |
-0,5834 |
0,0580 |
0,0000 |
|
MonthlyIncome_woe |
-0,2581 |
0,0540 |
0,0000 |
|
NumberOfOpenCreditLinesAndLoans_woe |
-0,3168 |
0,0660 |
0,0000 |
|
NumberRealEstateLoansOrLines_woe |
-0,5283 |
0,0770 |
0,0000 |
|
NumberOfDependents_woe |
-0,2132 |
0,0740 |
0,0040 |
Полученная регрессионная модель обладает разделяющей способностью с Gini = 0.6535, и сильно превосходит по предсказательной силе модель, где на WoE были заменены только переменные с пропусками. На рисунке ниже (Рисунок 9) приводится график ROC-кривой полученной модели:
Рисунок 15 - ROC-кривая модели с заменой на WoE всех переменных
Замена на WoE-факторы всех тех переменных, где удаётся найти значимое разбиение, и дополнительное использование переменных, для которых разбиение найдено не было, позволяет уменьшить потери информации, и, если переменные без WoE-разбиения оказываются значимы (как в рассматриваемом наборе данных), учесть даже малое влияние экзогенных факторов. Была построена модель с использованием найденных разбиений и переменных, для которых значимое разбиение значимо не было.
В таблице ниже (Таблица 14) приводятся полученные оценки коэффициентов модели:
Таблица 14. Коэффициенты расширенной модели с заменой на WoE всех переменных
Коэфф. |
Ст. ошибка |
p-value |
||
Intercept |
-2,6698 |
0,015 |
0,0000 |
|
RevolvingUtilizationOfUnsecuredLines_woe |
-0,7573 |
0,015 |
0,0000 |
|
age_woe |
-0,4322 |
0,031 |
0,0000 |
|
NumberOfTime30_59DaysPastDueNotWorse_woe |
-0,7297 |
0,015 |
0,0000 |
|
DebtRatio_woe |
-0,6024 |
0,058 |
0,0000 |
|
MonthlyIncome_woe |
-0,2494 |
0,054 |
0,0000 |
|
NumberOfOpenCreditLinesAndLoans_woe |
-0,1591 |
0,067 |
0,0180 |
|
NumberRealEstateLoansOrLines_woe |
-0,4617 |
0,078 |
0,0000 |
|
NumberOfDependents_woe |
-0,2125 |
0,075 |
0,0050 |
|
NumberOfTimes90DaysLate |
0,3191 |
0,016 |
0,0000 |
|
NumberOfTime60_89DaysPastDueNotWorse |
-0,3086 |
0,016 |
0,0000 |
Полученная регрессионная модель обладает разделяющей способностью с Gini = 0.6569. Таким образом добавление переменных, для которых не было найдено значимого разбиения, оказывает положительное, но не сильное влияние на ранжирующую силу модели. На рисунке ниже (Рисунок 16) приводится график ROC-кривой полученной модели:
Рисунок 16 - ROC-кривая расширенной модели с заменой на WoE всех переменных
Характеристики моделей с использованием WoE приводятся в таблице ниже (Таблица 15):
Таблица 15. Метрики качества моделей с использованием WoE
GINI |
PRC-AUC |
||
WoE заменяет только те переменные, где есть пропуски |
0,4020 |
0,2407 |
|
WoE заменяет все переменные, где удалось найти бины |
0,6535 |
0,2725 |
|
WoE заменяет все переменные, где удалось найти бины, + переменные, для которых бины не нашлись, в сыром виде |
0,6569 |
0,3104 |
Сравнение полученных моделей
В таблице ниже (Таблица 16) приводятся метрики качества построенных с использованием различных подходов моделей:
Таблица 16. Первый набор данных. Метрики качества всех моделей.
Группа методов |
Метод |
Число значимых объясняющих переменных |
Gini |
PRC-AUC |
|
Исключение пропусков |
Пропуски исключены |
8 |
0,3851 |
0,2373 |
|
Замена пропущенных значений |
Пропуски заменены нулями |
9 |
0,3925 |
0,2415 |
|
Пропуски заменены средними |
10 |
0,3961 |
0,2407 |
||
Пропуски заменены нулями и средними |
9 |
0,3958 |
0,2401 |
||
WoE преобразование |
WoE там, где пропуски |
8 |
0,4020 |
0,2407 |
|
WoE везде, где нашлись бины |
8 |
0,6535 |
0,2725 |
||
WoE везде, где были найдены бины, + переменные, для которых не нашлось разбиения |
10 |
0,6569 |
0,3104 |
Можно заметить, что использование WoE преобразования только там, где были пропуски дало несильный прирост ранжирующей силы модели. Однако, применение предлагаемого подхода на всех переменных дало существенный прирост как ранжирующей силы, так и средней точности оценок. Из этого можно сделать вывод, что применение предлагаемого подхода позволило учесть нелинейные зависимости целевой переменной от объясняющих.
3.3 Второй набор данных. Поведенческий скоринг
Данные были собраны в ходе построения поведенческой модели оценки вероятности дефолта заёмщиков одного из коммерческих банков России. В связи с тем, что разработанная в рамках работы модель применяется при принятии решений и оценке резервов, здесь не приводятся вошедшие в модель переменные и коэффициенты при них. Некоторые характеристики портфеля были изменены. В тексте работы приводится общее описание данных и значения метрик качества модели.
Описание данных
В выборку для разработки и тестирования модели были отобраны кредитные договора с датами выдач с июля 2009 года по август 2015 года.
Итоговый набор договоров для разработки модели включал в себя 461 974 записи по 28 858 уникальным клиентам. Событие дефолта зафиксировано по 32 376 записям, таким образом, доля дефолтов в выборке - default rate (DR) составляет ~ 7.0 %.
Набор данных содержит 49 объясняющих переменных и 1 целевую. Список объясняющих переменных приводится в приложении (Приложение 2. Второй набор данных, Таблица 25).
Доли пропусков в переменных приведены в приложении (Приложение 2. Второй набор данных, Таблица 26).
Выборка была разбита случайным образом на два набора данных - обучающий набор для разработки скоринговой модели и тестовый набор для проверки эффективности полученной модели. Описание полученного разбиения приведено в таблице ниже (Таблица 17).
Таблица 17. Разбиение второго набора данных
Тип выборки |
Количество договоров |
Дефолты |
DR% |
Доля выборки |
|
Обучающая выборка |
322 556 |
22 585 |
7,0% |
70,0% |
|
Тестовая выборка |
139 415 |
9 791 |
7,0% |
30,0% |
Построение модели
Из-за высокого уровня пропусков в объясняющих переменных построение регрессионных моделей без применения предлагаемого подхода не проводилось.
Процесс разработки модели состоял из следующих этапов:
v формирование длинного списка факторов, однофакторный анализ:
Ш трансформация факторов;
Ш оценка дискриминирующей силы факторов и их статистической значимости;
Ш оценка бизнес-логики/бизнес-смысла факторов;
Ш анализ парных корреляций между факторами;
Ш анализ мультиколлинеарности;
v многофакторный анализ, генерация итоговой модели;
v тестирование и калибровка модели.
Длинный список факторов - совокупность переменных, которые потенциально могут влиять на склонность заемщика к дефолту. Длинный список факторов генерируется на этапе подготовки данных. В данном случае длинный список факторов состоит из переменных, характеризующих платежную дисциплину клиента и его основные характеристики. Проведение однофакторного анализа подразумевает преобразование факторов, оценку их дискриминирующей силы, статистической значимости, бизнес-смысла и корреляций. Однофакторный анализ представляет собой анализ влияния каждой (по отдельности) независимой переменной на зависимую переменную - дефолт. Результатом однофакторного анализа является решение о целесообразности включения каждой независимой переменной в короткий список факторов для проведения многофакторного анализа.
Однофакторный анализ
Первым шагом однофакторного анализа являлась трансформация факторов с использованием предлагаемого подхода.
Второй шаг однофакторного анализа - оценка дискриминирующей силы и статистической значимости переменных. Под дискриминирующей силой фактора понимается его способность дифференцировать дефолтные и не дефолтные сделки. Для оценки дискриминирующей способности переменной использовались значение статистики GINI. Чем выше значение GINI, тем большей дискриминирующей силой обладает данный фактор. В таблице ниже (Таблица 18) представлены пороговые значения GINI для определения категории эффективности фактора. На этапе однофакторного анализа должны исключаться факторы с низкой эффективностью ранжирования.
Таблица 18. Эффективности дискриминации фактора
GINI |
Категория |
|
менее 5% |
низкая эффективность |
|
от 5% до 10% |
средняя эффективность |
|
более 10% |
высокая эффективность |
Статистическая значимость характеризует степень достоверности связи между независимой переменной и зависимой переменной. Для оценки степени статистической значимости вычислялось значение статистики Chi-Square или значение p-value при тестировании гипотезы равенства 0 весового коэффициента при независимом факторе. В таблице ниже (Таблица 19) приведены пороговые значения p-value и соответствующие им категории статистической значимости. На этапе однофакторного анализа следует исключать факторы с низкой статистической значимостью.
Таблица 19. Статистическая значимость фактора
p-value |
Категория |
|
более 0.05 |
низкая статистическая значимость |
|
0.05 - 0.01 |
средняя статистическая значимость |
|
менее 0.01 |
высокая статистическая значимость |
Третий шаг однофакторного анализа - оценка бизнес-логики/бизнес-смысла факторов риска. Анализ бизнес-логики факторов состоял в проверке корректности взаимосвязи между значениями переменных (или трансформированных переменных) и уровнями дефолтов. Существует два типа такой взаимосвязи - прямая связь и обратная связь. Связь между значениями независимого фактора и уровнем дефолта называется прямой, если с увеличением значения фактора уровень дефолтов уменьшается. В противном случае связь является обратной. Данный тест заключается в сравнении ожидаемого и фактически-наблюдаемого направления связи. Если ожидаемое и фактическое направление связи совпадают - тест считается пройденным, в противном случае тест считается не пройденным и фактор должен быть исключен из дальнейшего анализа.
Четвертым шагом однофакторного анализа являлся анализ парных корреляций. Анализ парных корреляций используется для выявления коллинеарных (билинейных) зависимостей между переменными. Наличие корреляций между факторами повышает стандартные отклонения весов, что снижает их устойчивость и надежность в многофакторном анализе. Для корреляционного анализа была рассчитана матрица корреляций - таблица со значениями коэффициентов парных корреляций преобразованных WOE-факторов. Анализ данной таблицы позволил определить переменные, имеющие высокие линейные связи с другими факторами. Пороговое значение, начиная с которого коэффициенты корреляции признавались высоким, составляет 50%. Из каждой пары коррелирующих факторов для дальнейшего анализа был оставлен только один на основании либо более высокой индивидуальной предиктивной способности, либо большей важности фактора с точки зрения бизнес-логики.
После исключения коррелирующих переменных оставшиеся факторы были проверены на мультиколлинеарность. Для оценки мультиколлинеарности использовался фактор инфляции дисперсии (variance inflation factor - VIF). Переменные, для которых параметр VIF принимает значение 5 и более, считаются мультиколинеарными остальным факторам и были исключены из дальнейшего анализа.
Принятие решения по отбору факторов в короткий список было комплексным и учитывало не только количественные критерии, такие как дискриминирующая способность, статистическая значимость, корректные знаки при весовых коэффициентах, допустимый уровень корреляций и мультиколлинеарности, но также экспертное мнение разработчиков.
Многофакторный анализ
Объектом многофакторного анализа являлся короткий список факторов. Целью многофакторного анализа был отбор из короткого списка совокупности переменных с максимальной дискриминирующей способностью, а также оценка весов для полученной группы факторов, для расчета балла каждой переменной. Статистический алгоритм для реализации многофакторного анализа - бинарная множественная логистическая регрессия. Зависимой переменной является признак дефолта, независимыми переменными - набор WOE-факторов из короткого списка.
Для выбора итоговой модели в процедуре бинарной множественной логистической регрессии использовался пошаговый метод отбора переменных - stepwise selection. Данный метод заключается в последовательном включении факторов в модель, при этом, как только новый фактор входит в модель, процедура может удалить часть переменных, уже находящихся в модели, если они становятся статистически незначимыми при добавлении этого фактора. Уровни значимости для включения и исключения переменных - 5%.
На выборке для обучения итоговая модель продемонстрировала ранжирующую силу с Gini = 0.565. График ROC-кривой на обучающей выборке представлен на рисунке ниже (Рисунок 17).
Рисунок 17. ROC кривая PD модели на выборке для обучения
Тестирование модели
Тестирование модели заключалось в проверке дискриминирующей способности итогового скорингового балла и всех входящих в нее факторов. Проверка моделей проводилась на тестовом наборе данных. На тестовой выборке модель продемонстрировала уровень ранжирования с Gini= 0.579. График ROC кривой модели на тестовой выборке представлен на рисунке ниже (Рисунок 18).
Рисунок 18. ROC кривая PD модели на выборке для тестирования
Для проверки устойчивости модели с течением времени проводилась оценка эффективности ранжирования на выборке «Out of time». Выборка формировалась на данных за 3 месяца (01.09.15-01.12.15). Эффективность ранжирования показала значение GINI равное 0.521. ROC-кривая представлена на рисунке ниже (Рисунок 19).
Рисунок 19. ROC кривая PD модели на выборке OOT
В таблице ниже (Таблица 20) приведены метрики качества итоговой модели.
Таблица 20. Второй набор данных. Метрики качества модели.
Группа методов |
Метод |
Число значимых объясняющих переменных |
Gini |
|
Исключение пропусков |
Пропуски исключены |
Построение не проводилось |
Не оценивалось |
|
Замена пропущенных значений |
Пропуски заменены нулями |
|||
Пропуски заменены средними |
||||
Пропуски заменены нулями и средними |
||||
WoE преобразование |
WoE там, где пропуски |
|||
WoE везде, где были найдены бины, + переменные, для которых не нашлось разбиения |
||||
WoE везде, где нашлись бины |
Обучение |
0,5650 |
||
Тест |
0,5790 |
|||
Out of time |
0,5210 |
Высокая ранжирующая сила модели, построенной на трансформированных данных, показывает, что в условиях высокой доли пропущенных значений, не позволяющей строить модели на исходных данных, предлагаемый подход позволяет получить хорошие результаты.
Заключение
Для анализа надёжности заёмщиков были применены статистические и интеллектуальные методы анализа и прогнозирования. Автором предложен подход к анализу надёжности заёмщика, позволяющий повысить эффективность разрабатываемых моделей. В рамках работы были решены следующие задачи:
· Подготовлена информационная база исследования: заявочные и поведенческие характеристики заёмщиков
· Разработан и описан подход к предобработке данных
· С использованием предлагаемого подхода обработаны пропущенные значения и нелинейные зависимости в исходных данных
· Разработаны модели оценки надёжности заёмщика. Оценена их эффективность и вычислены метрики качества.
· Проведён сравнительный анализ моделей, разработанных с использованием предлагаемого подхода и без него, показавший эффективность применения предлагаемого подхода.
Научная новизна
Предложен новый подход к анализу и прогнозированию надёжности заёмщика в условиях неполноты данных с использованием статистических и интеллектуальных методов, позволяющий получать модели с большей предсказательной силой.
Практическая значимость.
Подход к анализу и прогнозированию, предложенный в работе, может быть использован как при оценке кредитных рисков, так и во многих других сферах деятельности. Благодаря применению статистических и интеллектуальных методов обработки данных предлагаемый подход позволяет повысить предсказательную силу классификаторов, основанных на применении логистической регрессии, и сократить трудозатраты, в перспективе сведя участие человека в моделировании до исключительно контрольных функций. Также опубликованная в рамках работы библиотека с реализацией предлагаемого подхода может быть использована в других проектах.
Дальнейшим развитием представленного исследования и подхода к анализу и оценке надёжности заёмщика могут служить следующие направления:
· Адаптация предлагаемого подхода к моделям количественной оценки
· Реализация предлагаемого подхода на различных языках программирования и его публикация
· Оценка других компонент кредитного риска
· Оценка компонент кредитного риска по факторам, характерным для корпоративных заёмщиков
Список использованной литературы
Книги, статьи, нормативно-правовые акты:
1. Allison, P., Missing data -- Quantitative applications in the social sciences. Thousand Oaks, CA: Sage. Vol. 136. (2001)
2. Bhatia M. Credit Risk Management and Basel II. - М.: Risk Books, 2006. - 450 с.
3. Breiman L., Friedman J. H., Olshen R. A., Stone C. J. Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, (1984)
4. Briggs, A., Clark, T., Wolstenholme, J., Clarke, P. Missing... presumed at random: cost-analysis of incomplete data. Health Economics 12, 377-392. (2003)
5. Chen SF, Goodman J. "An empirical study of smoothing techniques for language modeling". Proceedings of the 34th annual meeting on Association for Computational Linguistics. (1996)
6. Good I. J., Osteyee D.B. «Information, Weight of Evidence. The Singularity Between Probability Measures and Signal Detection», (1974)
7. Hosmer D.W., Lemeshow S. Applied Logistic Regression Second Edition, John Wiley & Sons, Inc. (2000)
8. Iden Gilmore V. The Federal Reserve Act: The History and Digest. The National Bank News (1914)
9. Mitchell Tom M., Machine Learning. The Mc-Graw-Hill Companies, Inc., (1997)
10. Powers, David M W "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation" (PDF). Journal of Machine Learning Technologies. 2 (1): 37-63. (2011)
11. Rokach L., Maimon O. Data mining with decision trees: theory and applications 2nd Edition World Scientific Publishing Co. Pte. Ltd. (2015)
12. SAS Institute Multiple Imputation for Missing Data: Concepts and New Approaches. (2005)
13. Schafer, J. L., Analysis of Incomplete Multivariate Data, New York: Chapman and Hall (1997)
14. Shannon Claude E. "A Mathematical Theory of Communication". // Bell System Technical Journal, Vol 27 p. 379-423 (July-October 1948)
15. Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring, (2006)
16. Soley-Bori M., Dealing with missing data: Key assumptions and methods for applied analysis. Boston University. (2013)
17. Stehman, Stephen V. "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. 62 (1): 77-89. doi:10.1016/S0034-4257(97)00083-7 (1997).
18. Stephen A. Rhoades The Herfindahl-Hirschman index. // Federal Reserve Bulletin, issue Mar, pp. 188-189 (1993)
19. Witten Ian; Frank Eibe; Hall Mark Data Mining. Burlington, MA: Morgan Kaufmann. pp. 102-103 (2011)
20. Блэк Дж., Экономика. Толковый словарь. -- М.: "ИНФРА-М", Издательство "Весь Мир". Общая редакция: д.э.н. Осадчая И.М. 2000.
21. Жарковская Е. П., Учебник для студентов вузов, обучающихся по специальности «Финансы и кредит»-- 7-е изд., испр, и доп. -- М.: Издательство «Омега-Л», 2010. -- 479 с. -- (Высшее финансовое образование).
22. Морсман Э. Управление кредитным портфелем. - М.: Альпина Паблишер, 2005. - 208 с.
23. Basel Committee on Banking Supervision (BCBS). Principles for the Management of Credit Risk (2000)
24. Basel Committee on Banking Supervision (BCBS). The Internal Ratings-Based Approach (2001)
25. Basel Committee on Banking Supervision (BCBS). International Convergence of Capital Measurement and Capital Standards: A Revised Framework (2004)
26. Basel Committee on Banking Supervision (BCBS). International Convergence of Capital Measurement and Capital Standards (1988)
27. Конституция Российской Федерации
28. Положение Банка России от 6 августа 2015 г. N 483-П "О порядке расчета величины кредитного риска на основе внутренних рейтингов"
29. Указание Банка России от 15 апреля 2015 года N 3624-У "О требованиях к системе управления рисками и капиталом кредитной организации и банковской группы"
30. Федеральный закон Российской федерации № 86-ФЗ «О Центральном банке Российской Федерации (Банке России)»
Электронные ресурсы:
1. AVERAGE PRECISION [Электронный ресурс] https://sanchom.wordpress.com/tag/average-precision/ (Дата обращения: 03.03.2018)
2. Give Me Some Credit [Электронный ресурс] / Kaggle. - URL: https://www.kaggle.com/c/GiveMeSomeCredit (Дата обращения 28.12.2017).
3. Официальный сайт Банка международных расчётов [Электронный ресурс] https://www.bis.org (Дата обращения: 09.05.2018)
4. Сайт библиотеки NumPy [Электронный ресурс] http://www.numpy.org/ (Дата обращения: 16.05.2018)
5. Сайт проекта Pandas [Электронный ресурс] http://pandas.pydata.org/index.html http://www.numpy.org/ (Дата обращения: 16.05.2018)
6. Сайт библиотеки scikit-learn [Электронный ресурс] http://scikit-learn.org/stable http://www.numpy.org/ (Дата обращения: 16.05.2018)
7. Git репозиторий проекта riskpy [Электронный ресурс] https://github.com/Falconwatch/riskpy http://www.numpy.org/ (Дата обращения: 16.05.2018)
Приложение 1. Модели первого набора данных
Модель с исключёнными пропусками
Таблица 21. Коэффициенты модели с исключёнными пропусками
Коэфф. |
Ст. ошибка |
z |
P>|z| |
||
Intercept |
-1,4975 |
0,056 |
-26,959 |
0,0000 |
|
age |
-0,0255 |
0,001 |
-22,882 |
0,0000 |
|
NumberOfTime30_59DaysPastDueNotWorse |
0,5144 |
0,014 |
36,278 |
0,0000 |
|
MonthlyIncome |
-3,56E-05 |
3,77E-06 |
-9,457 |
0,0000 |
|
NumberOfOpenCreditLinesAndLoans |
-0,0049 |
0,003 |
-1,489 |
0,1360 |
|
NumberOfTimes90DaysLate |
0,4722 |
0,02 |
23,481 |
0,0000 |
|
NumberRealEstateLoansOrLines |
0,0785 |
0,014 |
5,745 |
0,0000 |
|
NumberOfTime60_89DaysPastDueNotWorse |
-0,9512 |
0,023 |
-40,9 |
0,0000 |
|
NumberOfDependents |
0,0925 |
0,012 |
7,951 |
0,0000 |
Рисунок 20 - ROC-кривая модели с исключёнными пропусками
Модель с заменой на средние
Таблица 22. Коэффициенты модели с заменой на средние
Коэфф. |
Ст. ошибка |
z |
P>|z| |
||
Intercept |
-1,331 |
0,05 |
-26,513 |
0,0000 |
|
RevolvingUtilizationOfUnsecuredLines |
-0,0284 |
0,001 |
-28,643 |
0,0000 |
|
age |
0,5046 |
0,013 |
38,359 |
0,0000 |
|
NumberOfTime30_59DaysPastDueNotWorse |
-1,345E-05 |
0,0000115 |
-1,172 |
0,2410 |
|
DebtRatio |
-3,194E-05 |
3,63E-06 |
-8,791 |
0,0000 |
|
MonthlyIncome |
-0,008 |
0,003 |
-2,660 |
0,0080 |
|
NumberOfOpenCreditLinesAndLoans |
0,4836 |
0,018 |
26,576 |
0,0000 |
|
NumberOfTimes90DaysLate |
0,0665 |
0,013 |
5,154 |
0,0000 |
|
NumberRealEstateLoansOrLines |
-0,9567 |
0,021 |
-45,160 |
0,0000 |
|
NumberOfTime60_89DaysPastDueNotWorse |
0,0887 |
0,011 |
8,142 |
0,0000 |
|
NumberOfDependents |
-1,331 |
0,05 |
-26,513 |
0,0000 |
Рисунок 21 - ROC-кривая модели с заменой на среднее
Модель с заменой на нули
Таблица 23. Коэффициенты модели с заменой на нули
Коэфф. |
Ст. ошибка |
z |
P>|z| |
||
Intercept |
-1,3681 |
0,05 |
-27,495 |
0,0000 |
|
age |
-0,0291 |
0,001 |
-29,452 |
0,0000 |
|
NumberOfTime30_59DaysPastDueNotWorse |
0,5064 |
0,013 |
38,485 |
0,0000 |
|
DebtRatio |
-4,9E-05 |
1,41E-05 |
-3,442 |
0,0010 |
|
MonthlyIncome |
-2,6E-05 |
3,39E-06 |
-7,668 |
0,0000 |
|
NumberOfOpenCreditLinesAndLoans |
-0,0071 |
0,003 |
-2,359 |
0,0180 |
|
NumberOfTimes90DaysLate |
0,483 |
0,018 |
26,541 |
0,0000 |
|
NumberRealEstateLoansOrLines |
0,0665 |
0,013 |
5,079 |
0,0000 |
|
NumberOfTime60_89DaysPastDueNotWorse |
-0,9582 |
0,021 |
-45,223 |
0,0000 |
|
NumberOfDependents |
0,0951 |
0,011 |
8,691 |
0,0000 |
Рисунок 22 - ROC-кривая модели с заменой на нули
Модель с заменой на нули и средние
Таблица 24. Коэффициенты модели с заменой на нули и средние
Коэфф. |
Ст. ошибка |
z |
P>|z| |
||
Intercept |
-1,3681 |
0,05 |
-27,495 |
0,0000 |
|
age |
-0,0291 |
0,001 |
-29,452 |
0,0000 |
|
NumberOfTime30_59DaysPastDueNotWorse |
0,5064 |
0,013 |
38,485 |
0,0000 |
|
DebtRatio |
-4,87E-05 |
1,41E-05 |
-3,442 |
0,0010 |
|
MonthlyIncome |
-2,60E-05 |
3,39E-06 |
-7,668 |
0,0000 |
|
NumberOfOpenCreditLinesAndLoans |
-0,0071 |
0,003 |
-2,359 |
0,0180 |
|
NumberOfTimes90DaysLate |
0,483 |
0,018 |
26,541 |
0,0000 |
|
NumberRealEstateLoansOrLines |
0,0665 |
0,013 |
5,079 |
0,0000 |
|
NumberOfTime60_89DaysPastDueNotWorse |
-0,9582 |
0,021 |
-45,223 |
0,0000 |
|
NumberOfDependents |
0,0951 |
0,011 |
8,691 |
0,0000 |
Рисунок 23 - ROC-кривая модели с заменой на нули и средние
Приложение 2. Второй набор данных
Таблица 25. Объясняющие переменные второго набора данных
Имя фактора |
Код фактора |
|
Общее кол-во просрочек по клиенту длительностью от 90 до 120 дней до текущей даты среза |
CL_PAID_DLQ_90120 |
|
Общее кол-во просрочек по клиенту длительностью более 120 дней до текущей даты среза |
CL_PAID_DLQ_120P |
|
Тип залога |
CL_PLEDGE_TYPE |
|
Вид экономической деятельности (индустрия) |
INDUSTRY_ID |
|
Тип клиента (ИП, ФЛ, ООО) |
CLIENT_TYPE_ID |
|
Срок от открытия первого договора |
MOB_FIRST_ACC |
|
Срок от открытия последнего договора |
MOB_LAST_ACC |
|
Время прошедшее с текущей даты до начала первой просрочки по клиенту |
DTREP_M_FSTDLQBEG_DAY_CL |
|
Время прошедшее с текущей даты до начала последней просрочки по клиенту |
DTREP_M_FSTDLQEND_DAY_CL |
|
Максимальное по клиенту, за последние 12 месяцев, до текущей даты среза, отношение (ПОД и ПРПР) к (ОД, ПОД, ПР и ПРПР) |
CL_MAX_PODAMT2ODAMT12M |
|
Максимальное по клиенту, до текущей даты среза, отношение (ПОД и ПРПР) к (ОД, ПОД, ПР и ПРПР) |
CL_MAX_PODAMT2ODAMT |
|
Доля: кол-во погашенных без просрочек договоров клиента от общего кол-ва погашенных договоров клиента |
CL_TOT_PAIDNODEL_RATE |
|
Отношение кол-ва действующих договоров ко всем имевшим место |
CL_TOT_OPEN_ACC_RATE |
|
Задолженность (сроч ОД + просроч ОД) к сумме лимита |
PORTF2LIMIT |
|
Задолженность ( ОД, ПОД, ПР и ПРПР по действующим договорам клиента на дату среза) к сумме лимита |
AMT2LIMIT |
|
Отношение суммы выплаченных денег по клиенту к сумме долга(ОД, ПОД, ПР и ПРПР по действующим договорам клиента на текущую дату среза) |
PAIDAMT2AMT_CL* |
|
Отношение суммы максимальной погашенной просрочки по клиенту к сумме выплаченных денег |
MAXDLQAMT2PAIDAMT_CL |
|
Ставка на выдаче |
RATE1 |
|
Кол-во договоров открытых клиентом за последние 3 мес. до текущей даты среза |
CL_TOT_ACC_OPEND3M |
|
Кол-во договоров открытых клиентом за последние 6 мес. до текущей даты среза |
CL_TOT_ACC_OPEND6M |
|
Кол-во договоров открытых клиентом за последние 12 мес. до текущей даты среза |
CL_TOT_ACC_OPEND12M |
|
Текущие дни просрочки |
CL_CUR_DLQ |
|
Максимальная глубина просрочки по договорам клиента за последние 3 мес. до текущей даты среза |
CL_MAX_DLQ3M |
|
Максимальная глубина просрочки по договорам клиента за последние 6 мес. до текущей даты среза |
CL_MAX_DLQ6M |
|
Максимальная глубина просрочки по договорам клиента за последние 12 мес. до текущей даты среза |
CL_MAX_DLQ12M |
|
Максимальная глубина просрочки по договорам клиента до текущей даты среза |
CL_MAX_DLQ |
|
Общее кол-во дней погашенных просрочек по договорам клиента за все время до текущей даты среза |
CL_DAYS_IN_DLQ |
|
Общее кол-во погашенных просрочек по клиенту за последние 3 мес. до текущей даты среза |
CL_PAID_DLQ3M |
|
Общее кол-во погашенных просрочек по клиенту за последние 6 мес. до текущей даты среза |
CL_PAID_DLQ6M |
|
Общее кол-во погашенных просрочек по клиенту за последние 12 мес. до текущей даты среза |
CL_PAID_DLQ12M |
|
Общее кол-во просрочек по клиенту длительностью от 1 до 5 дней до текущей даты среза |
CL_PAID_DLQ_5 |
|
Общее кол-во просрочек по клиенту длительностью до 30 дней до текущей даты среза |
CL_PAID_DLQ_30 |
|
Общее кол-во просрочек по клиенту длительностью от 30 до 60 дней до текущей даты среза |
CL_PAID_DLQ_3060 |
|
Общее кол-во просрочек по клиенту длительностью от 60 до 90 дней до текущей даты среза |
CL_PAID_DLQ_6090 |
|
Отношение суммы выплаченных денег по клиенту к сумме долга |
PAIDAMT2PORTF_CL |
|
Отношение суммы выплаченных денег (3 мес.) по клиенту к сумме долга |
PAIDAMT3M2AMT_CL |
|
Отношение суммы выплаченных денег (3 мес.) по клиенту к сумме долга (ОД) |
PAIDAMT3M2PORTF_CL |
|
Отношение суммы выплаченных денег (6 мес.) по клиенту к сумме долга |
PAIDAMT6M2AMT_CL |
|
Отношение суммы выплаченных денег (6 мес.) по клиенту к сумме долга (ОД) |
PAIDAMT6M2PORTF_CL |
|
Отношение суммы выплаченных денег (12 мес.) по клиенту к сумме долга |
PAIDAMT12M2AMT_CL |
|
Отношение суммы выплаченных денег (12 мес.) по клиенту к сумме долга (ОД) |
PAIDAMT12M2PORTF_CL |
|
Отношение суммы максимальной погашенной просрочки по клиенту к сумме долга по клиенту |
MAXDLQAMT2AMT_CL |
|
Отношение суммы погашенных просрочек по клиенту к сумме долга |
PAIDDLQAMT2AMT_CL |
|
Сумма текущей просрочки по действующим договорам клиента на дату среза к сумме ОД (сроч. ОД + просроч. ОД) |
CL_CUR_DLQ_AMT2PORTF_CL |
|
Общее кол-во просроченных погашенных платежей по клиенту за все время до текущей даты среза к Общему кол-во погашенных платежей по клиенту за все время до текущей даты среза |
CL_PAID_PAYM_DLQ_RATE |
|
Отношение суммы максимальной за 12 мес. просрочки к сумме долга по клиенту |
CLMAXDLQAMT12M2CLAMT |
|
Отношение суммы максимальной за 6 мес. просрочки к сумме долга по клиенту |
CLMAXDLQAMT6M2CLAMT |
|
Отношение суммы максимальной за 3 мес. просрочки к сумме долга по клиенту |
CLMAXDLQAMT3M2CLAMT |
|
Количество действующих договоров клиента с длительностью текущей просрочки 1 день и более на дату среза, отнесенное к общему кол-ву действующих договоров клиента на текущую дату среза |
CL_CUR_DLQ_ACC_RATE |
Таблица 26. Доли пропусков в объясняющих переменных второго набора данных
Код фактора |
Доля пропусков |
|
CL_PAID_DLQ_90120 |
4% |
|
CL_PAID_DLQ_120P |
13% |
|
CL_PLEDGE_TYPE |
12% |
|
INDUSTRY_ID |
5% |
|
CLIENT_TYPE_ID |
17% |
|
MOB_FIRST_ACC |
5% |
|
MOB_LAST_ACC |
18% |
|
DTREP_M_FSTDLQBEG_DAY_CL |
11% |
|
DTREP_M_FSTDLQEND_DAY_CL |
9% |
|
CL_MAX_PODAMT2ODAMT12M |
5% |
|
CL_MAX_PODAMT2ODAMT |
17% |
|
CL_TOT_PAIDNODEL_RATE |
4% |
|
CL_TOT_OPEN_ACC_RATE |
17% |
|
PORTF2LIMIT |
17% |
|
AMT2LIMIT |
13% |
|
PAIDAMT2AMT_CL* |
10% |
|
MAXDLQAMT2PAIDAMT_CL |
5% |
|
RATE1 |
12% |
|
CL_TOT_ACC_OPEND3M |
15% |
|
CL_TOT_ACC_OPEND6M |
10% |
|
CL_TOT_ACC_OPEND12M |
16% |
|
CL_CUR_DLQ |
5% |
|
CL_MAX_DLQ3M |
4% |
|
CL_MAX_DLQ6M |
13% |
|
CL_MAX_DLQ12M |
15% |
|
CL_MAX_DLQ |
5% |
|
CL_DAYS_IN_DLQ |
11% |
|
CL_PAID_DLQ3M |
8% |
|
CL_PAID_DLQ6M |
4% |
|
CL_PAID_DLQ12M |
14% |
|
CL_PAID_DLQ_5 |
18% |
|
CL_PAID_DLQ_30 |
9% |
|
CL_PAID_DLQ_3060 |
15% |
|
CL_PAID_DLQ_6090 |
13% |
|
PAIDAMT2PORTF_CL |
17% |
|
PAIDAMT3M2AMT_CL |
6% |
|
PAIDAMT3M2PORTF_CL |
15% |
|
PAIDAMT6M2AMT_CL |
9% |
|
PAIDAMT6M2PORTF_CL |
12% |
|
PAIDAMT12M2AMT_CL |
12% |
|
PAIDAMT12M2PORTF_CL |
5% |
|
MAXDLQAMT2AMT_CL |
5% |
|
PAIDDLQAMT2AMT_CL |
16% |
|
CL_CUR_DLQ_AMT2PORTF_CL |
18% |
|
CL_PAID_PAYM_DLQ_RATE |
15% |
|
CLMAXDLQAMT12M2CLAMT |
6% |
|
CLMAXDLQAMT6M2CLAMT |
13% |
|
CLMAXDLQAMT3M2CLAMT |
18% |
|
CL_CUR_DLQ_ACC_RATE |
13% |
Размещено на Allbest.ru
Подобные документы
Система управления и методика анализа кредитного риска. Кредитная политика банка. Организационная структура и характеристика Муромцевского отделения № 2257 Сбербанка РФ. Обеспечение возврата банковских ссуд. Недостатки в управлении кредитным риском.
дипломная работа [108,7 K], добавлен 09.09.2010Нормативно-правовое регулирование кредитного риска и методы его оценка. Организация работы коммерческого банка по управлению кредитным риском. Возможности использования цифровизации банковской деятельности для качественного управления кредитным риском.
дипломная работа [1,6 M], добавлен 19.01.2021Сущность кредитного риска и факторы, влияющие на него. Общая характеристика и оценка экономических показателей деятельности банка ОАО "Альфа-Банк". Анализ кредитоспособности заемщика. Перспективы и возникающие проблемы в сфере управления кредитным риском.
дипломная работа [242,6 K], добавлен 05.12.2014Понятие кредитного риска. Сущность системы управления рисками в банке. Необходимость использования современных методов управления кредитным риском в банковской практике. Политика управления кредитным риском коммерческих банков Республики Беларусь.
курсовая работа [452,0 K], добавлен 08.02.2012Изучение классификации и содержания методов оценки ожидаемого кредитного риска, применяемых коммерческими банками. Исследование основ построения организационной и информационной инфраструктуры системы управления кредитным риском коммерческого банка.
курсовая работа [153,0 K], добавлен 07.03.2014Оценка современных концепций управления кредитным портфелем в национальной и зарубежной практике. Организация деятельности банка при осуществлении процесса кредитования, направленого на предотвращение или минимизацию кредитного риска, лимитирование.
контрольная работа [46,9 K], добавлен 13.06.2009Сущность кредитного риска и факторы его определяющие. Последовательность этапов процесса управления кредитным риском. Методы определения кредитоспособности заемщика. Управление риском кредитного портфеля. Уровень ликвидности кредитного портфеля.
курсовая работа [292,7 K], добавлен 07.04.2012Виды риска в банковской деятельности. Анализ управления кредитным риском на примере ОАО "Сбербанк". Применение оптимальной кредитной политики как основа управления кредитным риском. Мероприятия по снижению кредитного риска. Страхование банковского риска.
курсовая работа [81,8 K], добавлен 06.01.2015Сущность кредитного риска; способы его минимизации - диверсификация, лимитирование, страхование. Краткая характеристика деятельности ООО "ХКФ Банка", анализ его финансового состояния и определение методики, применяемой для оценки кредитного риска.
курсовая работа [737,1 K], добавлен 01.04.2011Кредитные риски как разновидность банковских рисков. Анализ кредитоспособности заемщика. Разработка рекомендаций и мероприятий по управлению кредитным риском. Классификация банковского кредитного риска. Управление риском в системе "банк-клиент".
дипломная работа [152,5 K], добавлен 01.03.2011