Оценка надёжности заёмщика банка в условиях неполноты информации

Банковская деятельность и кредитный риск. Информационная база управления кредитным риском. Повышение эффективности использования данных при моделировании кредитного риска. Автоматизация процесса преобразования данных. Методика сравнительного анализа.

Рубрика Банковское, биржевое дело и страхование
Вид дипломная работа
Язык русский
Дата добавления 23.09.2018
Размер файла 1,8 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Дополнительным ограничением, связанным с количеством элементов в бакете может выступать ограничение концентрации. Для контроля уровня концентрации может быть использован индекс Херфиндаля-Хиршмена (Stephen A, 1993), пороговые значения для которого должны устанавливаться экспертно.

Некоторые нормативные документы и рекомендации (Siddiqi N, 2006) устанавливают требование линейной зависимости значения WoE от значений фактора, однако, в случае наличия логического обоснования нелинейной зависимости (как в примере из пункта 2.3) допускается нелинейная зависимость. В случаях же, когда требований линейности нет, и есть задача поиска нестандартных зависимостей, следует искать разбиения без учёта характера зависимости.

Алгоритм поиска разбиения

До начала поиска разбиения для всего набора данных задаются ограничения: минимальное число элементов в бакете.

Для каждой объясняющей переменной задаются ограничения: максимальная глубина дерева (пропорциональная максимальному возможному числу бакетов), требование линейности.

После задания ограничений начинается процесс поиска разбиений для данных, протекающий следующим образом. Для каждой объясняющей переменной выделяется поднабор данных, состоящий из объясняемой и текущей объясняющей переменной. Для созданного поднабора данных строятся однофакторные решающие деревья, глубиной не более заданной максимальной. Каждое следующее разбиение сравнивается с предыдущим лучшим по критерию информативности. Если новое разбиение превосходит лучшее и соответствует установленным ограничениям, то оно становится лучшим. Процесс построения деревьев повторяется, пока не будут перебраны все гипер-параметры. На рисунке ниже (Рисунок 5) приведена схема процесса поиска разбиений.

Рисунок 5 - Схема алгоритма поиска разбиения

Построение деревьев решений модифицировано с целью реализации возможности построения моделей на данных с пропущенными значениями. Так, если в поднаборе для определённой переменной есть пропущенные значения, то эти наблюдения выделяются из поднабора в отдельный бакет, для которого вычисляется WoE. Построение деревьев в таком случае осуществляется на поднаборе, из которого были исключены наблюдения с пропущенными значениями.

Таким образом для каждой переменной в исходных данных, где это возможно, получается разбиение в формате, приведённом выше в примере в пункте 2.3. В общем виде правила разбиения выглядят следующим образом:

Таблица 3. Общий вид правил разбиения

Значение исходной переменной

Значение WoE

Где - пороговые значения, границы бинов, строгость неравенств зависит от реализации. - соответствующие значения WoE-фактора.

Алгоритм применения разбиения

Применение разбиения происходит на обоих этапах. На этапе разработки разбиение применяется к исходных данным перед построением классификатора. На этапе применения разбиение применяется каждый раз при поступлении новых данных, по которым требуется получить модельные оценки. Будь то тестирование модели или её промышленная эксплуатация.

Применение разбиения выполняется следующим образом. Для каждой переменной исходные значения заменяются на WoE в соответствии с найденными правила разделения на бины.

Например, в процессе промышленной эксплуатации поступает выборка из 5 человек разных возрастов:

Таблица 4. Пример применения разбиения. Исходная выборка

ID наблюдения

Возраст

1

27

2

54

3

39

4

32

5

63

После применения правил разбиения, приведённых в пункте 2.3 данные трансформируются следующим образом:

Таблица 5. Пример применения разбиения. Преобразованная выборка

ID наблюдения

WoE_Возраст

1

-0,7621

2

-1,0135

3

-0,7621

4

0,7621

5

0,4665

После чего уже к преобразованной выборке, где значения возраста клиентов были заменены на соответствующие значения WoE-фактора, применяется обученный классификатор.

Инструментальные и программные средства

Реализация предложенного подхода возможна с использованием различным математических и программных средств.

Сглаживание Лапласа

При разбиении объясняющей переменной на бакеты возможно возникновении ситуации, когда в одном из них окажутся только «хорошие» или только «плохие» наблюдения. Тогда вычисление WoE станет невозможным из-за обращения знаменателя в ноль. Такая ситуация является очень редкой и её возникновение может быть вызвано ошибкой при проведении разбиения, например, когда не соблюдается требование минимального размера бакета. Однако, появление бакета, содержащего представителей только одного из двух классов может быть вызвано высокой разделяющей способностью рассматриваемой объясняющей переменной. В таком случае WoE вычислять необходимо, чтобы не потерять независимую переменную, обладающую хорошей разделяющей способностью.

Для предотвращения случаев невозможности вычисления WoE для бакетов, содержащих представителей исключительно одного класса может быть использовано аддитивное сглаживание (Chen, 1996). Тогда формула (2.3_4) для вычисления WoE принимает следующий вид:

(2.5_1)

Реализация на Python

Описанные во второй главе алгоритмы и формулы были реализованы в формате библиотеке на языке Python с использованием общедоступных библиотек: NumPy, Pandas, ScikitLearn (Сайт библиотеки Numpy, Сайт проекта Pandas, Сайт библиотеки scikit-learn [Электронные ресурсы]). Реализованная в рамках работы библиотека была опубликована под именем riskpy. Исходный код библиотеки размещён в репозитории GitHub (Git репозиторий проекта riskpy [Электронный ресурс]).

Глава 3. Моделирование надёжности заёмщика банка

3.1 Методика сравнительного анализа

Для проведения сравнения результатов построения и применения моделей была использована следующая методика.

Общее описание алгоритма

Для проведения сравнения подходов используется следующий алгоритм:

1. Набор данных разделяется на обучение и тест в отношении 7 к 3 (30% - тест) с сохранением среднего уровня целевой переменной в каждой из подвыборок.

2. На полученной выборке для обучения с использованием каждого из подходов строятся модели логистической регрессии.

3. Построенные модели применяются к тестовой выборке, предварительно преобразованной в соответствии с использованным при обучении модели подходом

4. Результаты применения различных подходов сравниваются по выбранным метрикам качества работы классификатора

Метрики качества

Для оценки качества работы получаемых моделей были использованы широко применяемые метрики, описываемые ниже.

Матрица несоответствий

Матрица несоответствий - табличное представление результатов работы алгоритма классификации. Каждый столбец матрицы - число экземпляров в прогнозируемом классе, строка - число экземпляров в действительном классе. Часто в задаче бинарной классификации объекты одного из классов называют "Хорошими" (англ. positive), а второго - "Плохими" (англ. negative), и на основании этих обозначений вводят следующие понятия: верно отнесённый к "хорошим" (True Positive, TP), ошибочно отнесённый к "хорошим" (False Positive, FP) - ошибка первого рода, верно отнесённый к "плохим" (True Negative, TN) и ошибочно отнесённый к плохим (False Positive, FP) - ошибка второго рода. (Stehman, 1997)

Ниже представлен пример матрицы несоответствий (Таблица 6).

Таблица 6. Матрица несоответствий и показатели

Предсказано

"Плохой"

"Хороший"

На самом деле

"Плохой"

TN

FP

"Хороший"

FN

TP

Precision

Точность (англ. precision) или прогностическая ценность предсказания в задачах классификации вычисляется как отношение числа верно отнесённых к классу "хороших" элементов к числу всех элементов, отнесённых моделью к этому классу. Точность показывает, насколько можно доверять классификатору в случае срабатывания, и вычисляется для каждого класса. Точность может быть вычислена как (3.1_1) (Powers, 2011)

(3.1_1)

Recall

Полнота (англ. Recall) - метрика, показывающая долю действительно относящихся к «хорошим» среди тех, кого к «хорошим» отнесла модель. Полнота показывает, на какой доле «хороших» объектов модель срабатывает. Аналогично точности полнота может быть вычислена для каждого класса. (Powers, 2011)

(3.1_2)

PR-кривая и AUC-PR

Как правило, precision и recall обратно связаны между собой, то есть когда растёт precision, падает recall, и наоборот. Для достижения оптимального баланса этих двух показателей используется Precision-Recall кривая, иллюстрирующая возможные пары значений precision-recall при различных порогах отсечения.

Для унифицированной оценки качества классификатора на основании PR-кривых используется метрика AUC-ROC, равная по своей величине среднему значению precision (sanchom, AVERAGE PRECISION [Электронный ресурс]).

ROC-кривая и AUC-ROC

ROC-кривая -- график, отображающий отношение доли объектов от общего количества объектов класса, верно классифицированных как представители класса, (англ. true positive rate, TPR) к доле объектов от общего количества объектов, не относящихся к классу, ошибочно отнесённых к классу (англ. false positive rate, FPR) при изменении порога отсечения. Кривая выходит из точки (0; 0) и приходит в точку (1; 1) (Рисунок 6).

Рисунок 6. Пример ROC-кривой

При этом, если существует идеальный классификатор, кривая должна пройти через точку (0; 1). Чем ближе кривая к этой точке, тем лучше будут оценки, а площадь под кривой будет характеризовать качество оценок принадлежности к первому классу. Такая метрика называется AUC-ROC, или площадь под ROC-кривой. (Powers, 2011)

Как было написано выше, ROC-кривая строится в осях FPR и TPR, которые нормируются на размеры классов:

(3.1_3)

Следовательно, при изменении баланса классов величина AUC-ROC и неизменных свойствах объектов выборки площадь под ROC-кривой не изменится. В случае идеального алгоритма AUC-ROC = 1, а в случае худшего:

Значение AUC-ROC имеет смысл вероятности того, что, если были выбраны случайный положительный и случайный отрицательный объекты выборки, положительный объект получит оценку принадлежности выше, чем отрицательный объект. (Powers, 2011)

Коэффициент GINI

Часто для оценки качества классификации использует коэффициент Джини. Коэффициент Джини изменяется от 0 до 1. Чем ближе его значение к нулю, тем более равномерно распределён показатель. В задаче классификации коэффициент Джини применяется для предсказания непрерывных величин. В задаче классификации высокий коэффициент Джини показывает, что классификатор хорошо разделяет "хороших" и "плохих", а низкий - классификатор почти не может их разделить. Коэффициент Джини может быть вычислен по формуле (3.1.6) (Powers, 2011):

(3.1_4)

3.2 Первый набор данных. Заявочный скоринг

В качестве первого набора данных были использованы заявочные данные клиентов из открытых источников.

Описание данных

В качестве первого набора данных был использован датасет с данными о выходе клиентов на просрочку, опубликованный в рамках соревнования по анализу данных (Kaggle [Электронный ресурс]).

Набор данных содержит следующие поля:

Таблица 7. Объясняющие переменные первого набора данных

Переменная

Описание

Тип

SeriousDlqin2yrs

Заёмщик вышел на просрочку 90+

Флаг

Объясняющие переменные

RevolvingUtilizationOfUnsecuredLines

Отношение общего баланса по кредитным картам и персональным кредитным линиям за исключением кредитов на недвижимость и без рассрочки (например, автокредитов) к общему кредитного лимита

Процент

Age

Возраст заёмщика в годах

Целое число

NumberOfTime30-59DaysPastDueNotWorse

Количество выхода заёмщика на просрочку 30-59 дней (но не хуже) за последние 2 года.

Целое число

DebtRatio

Отношение ежемесячных платежей по кредитам, алиментов и расходов на проживание к валовому месячному доходу

Процент

MonthlyIncome

Месячный доход

Число

NumberOfOpenCreditLinesAndLoans

Число открытых кредитов (ипотека, автокредиты) и кредитных линий (например, кредитные карты)

Целое число

NumberOfTimes90DaysLate

Количество выходов заёмщиком на просрочку 90+

Целое число

NumberRealEstateLoansOrLines

Число ипотек и кредитов на недвижимость, включая кредитные линии на собственный капитал.

Целое число

NumberOfTime60-89DaysPastDueNotWorse

Количество выхода заёмщика на просрочку 60-89 дней (но не хуже) за последние 2 года.

Целое число

NumberOfDependents

Количество иждивенцев в семье, исключая самого заёмщика (супруг, дети и т.д.)

Целое число

Всего наблюдений в наборе 150000. Статистика по пропускам следующая (Таблица 8):

Таблица 8. Первый набор данных. Пропуски

Переменная

Наблюдений

Заполненных значений

Доля пропусков

RevolvingUtilizationOfUnsecuredLines

150000

150000

0,00%

Age

150000

150000

0,00%

NumberOfTime30-59DaysPastDueNotWorse

150000

150000

0,00%

DebtRatio

150000

150000

0,00%

MonthlyIncome

150000

120269

19,82%

NumberOfOpenCreditLinesAndLoans

150000

150000

0,00%

NumberOfTimes90DaysLate

150000

150000

0,00%

NumberRealEstateLoansOrLines

150000

150000

0,00%

NumberOfTime60-89DaysPastDueNotWorse

150000

150000

0,00%

NumberOfDependents

150000

146076

2,62%

Для дальнейшего анализа разобьём имеющуюся выборку на обучение и тест: 30% - тест, 70% - обучение. Разбиение производится случайным образом с сохранением соотношения «плохие»/«хорошие», результат разбиения приведён в таблице ниже (Таблица 9).

Таблица 9. Первый набор данных. Разбиение на обучение и тест

Число наблюдений

Доля «плохих»

Обучение

105000

0.0668380952381

Тест

45000

0.0668444444444

Построение моделей

Построение моделей проводилось с использованием различных подходов к устранению пропусков.

Исключение пропусков

Из имеющихся выборок для обучения и тестирования были исключены наблюдения, содержащие пропуски. Получившиеся выборки для обучения и тестирования следующие:

Таблица 10. Первый набор данных. Исключение пропусков. Обучение и тест.

Число наблюдений

Доля «плохих»

Обучение

84139

0.0692544479968

Тест

36130

0.0700249100471

На новых выборках, не содержащих наблюдений с пропущенными значениями, была построена и протестирована модель логистической регрессии. Коэффициенты полученной регрессионной модели и ROC-кривая на тестовой выборке приводятся в приложении (Приложение 1. Модели первого набора данных: Таблица 21 и Рисунок 20). Полученная модель продемонстрировала на тестовой выборке разделяющую способность с Gini 0.3851, и средней точностью 0.2373

Заполнение пропусков в данных

На данном этапе исследования пропуски в данных были заполнены одним из следующих способов:

· Средними значениями соответствующих столбцов

· Нулями

· Средними или нулями, в зависимости от предполагаемого экономического смысла пропуска

Замена пропусков на нули и средние была произведена исходя из экономического смысла переменных. Так пропуски в переменной MonthlyIncome могут быть заменены на среднее значение из предположения, что доход заёмщиков, с большей вероятностью, не равен нулю. Пропуски в переменной NumberOfDependents были заменены нулями из предположения, что для заемщиков, не имеющих иждивенцев, данный признак мог быть не заполнен.

Графики ROC-кривых и коэффициенты в полученных моделях приводятся в приложении (Рисунок 21, Рисунок 22, Рисунок 23, Таблица 22, Таблица 23, Таблица 24).

В таблице ниже (Таблица 11) приводятся значения метрик качества построенных моделей:

Таблица 11. Метрики качества моделей без использования WoE

Заполнение пропусков

GINI

PRC-AUC

Среднее

0,3961

0,2407

Нули

0,3925

0,2415

Среднее и нули

0,3958

0,2401

Использование WoE

С учётом характеристик рассматриваемого набора данных существует три возможных сценария использования WoE:

· Заменить на WoE только те переменные, где есть пропуски

· Заменить на WoE все те переменные, где возможно найти значимое разбиение, и использовать только их

· Заменить на WoE все те переменные, где возможно найти значимое разбиение, и использовать в исходном виде те переменные, где разбиение не было найдено

Замена на WoE-факторы только тех переменных, где есть пропуски, является способом устранения пропусков в данных. Путём применения предлагаемого подхода, было получено следующее разбиение (Рисунок 7, Рисунок 8):

Рисунок 7. WoE-разбиение для переменной MonthltyIncome

Рисунок 8. WoE-разбиение для переменной NumberOfDependents

По представленным выше графикам полученных разбиений видна обнаруженная монотонная зависимость среднего уровня значений целевой переменной от бакета.

В результате отбора переменных и построения логистической регрессии были получены следующие оценки коэффициентов в модели (Таблица 12):

Таблица 12. Коэффициенты модели с заменой на WoE переменных с пропусками

Коэфф.

Ст. ошибка

p-value

Intercept

-1,5371

0,050

0,0000

Age

-0,0271

0,001

0,0000

MonthlyIncome_woe

-0,7755

0,052

0,0000

NumberOfTime30_59DaysPastDueNotWorse

0,5018

0,013

0,0000

NumberOfOpenCreditLinesAndLoans

-0,0078

0,003

0,0090

NumberOfTimes90DaysLate

0,4801

0,018

0,0000

NumberRealEstateLoansOrLines

0,0771

0,012

0,0000

NumberOfTime60_89DaysPastDueNotWorse

-0,9498

0,021

0,0000

NumberOfDependents_woe

-0,5759

0,071

0,0000

Полученная регрессионная модель показывает разделяющую способность с Gini = 0.4020. На рисунке ниже (Рисунок 9) приводится график ROC-кривой полученной модели:

Рисунок 9 - ROC-кривая модели с заменой на WoE переменных с пропусками

Однако, помимо устранения проблемы пропусков в данных замена на WoE-факторы может позволить учесть нелинейные зависимости и снизить влияние шума. С этой целью была произведена на WoE-факторы всех тех переменных, где удаётся найти значимое разбиение. Данная процедура так же позволяет на ранних стадиях исключить из анализа незначимые переменные. Ниже приводятся найденные WoE-разбиения по тем переменным, которые не были обработаны на предыдущем этапе (Рисунок 10 - Рисунок 14). Разбиение переменных MonthlyIncome и NumberOfDependents такое же, как на предыдущем этапе.

Рисунок 10. WoE-разбиение для переменной age

Рисунок 11. WoE-разбиение для переменной DebtRatio

Рисунок 12. WoE-разбиение для переменной NumberOfTime30_59DaysPastDueNotWorse

Рисунок 13. WoE-разбиение для переменной NumberOfOpenCreditLinesAndLoans

Рисунок 14. WoE-разбиение для переменной RevolvingUtilizationOfUnsecuredLines

банковский кредитный риск управление

На полученных WoE-разбиениях была построена модель логистической регрессии, оценки коэффициентов которой представлены в таблице ниже (Таблица 13):

Таблица 13. Коэффициенты модели с заменой на WoE всех переменных

Коэфф.

Ст. ошибка

p-value

Intercept

-2,6403

0,0150

0,0000

RevolvingUtilizationOfUnsecuredLines_woe

-0,7786

0,0140

0,0000

age_woe

-0,4405

0,0310

0,0000

NumberOfTime30_59DaysPastDueNotWorse_woe

-0,7465

0,0150

0,0000

DebtRatio_woe

-0,5834

0,0580

0,0000

MonthlyIncome_woe

-0,2581

0,0540

0,0000

NumberOfOpenCreditLinesAndLoans_woe

-0,3168

0,0660

0,0000

NumberRealEstateLoansOrLines_woe

-0,5283

0,0770

0,0000

NumberOfDependents_woe

-0,2132

0,0740

0,0040

Полученная регрессионная модель обладает разделяющей способностью с Gini = 0.6535, и сильно превосходит по предсказательной силе модель, где на WoE были заменены только переменные с пропусками. На рисунке ниже (Рисунок 9) приводится график ROC-кривой полученной модели:

Рисунок 15 - ROC-кривая модели с заменой на WoE всех переменных

Замена на WoE-факторы всех тех переменных, где удаётся найти значимое разбиение, и дополнительное использование переменных, для которых разбиение найдено не было, позволяет уменьшить потери информации, и, если переменные без WoE-разбиения оказываются значимы (как в рассматриваемом наборе данных), учесть даже малое влияние экзогенных факторов. Была построена модель с использованием найденных разбиений и переменных, для которых значимое разбиение значимо не было.

В таблице ниже (Таблица 14) приводятся полученные оценки коэффициентов модели:

Таблица 14. Коэффициенты расширенной модели с заменой на WoE всех переменных

Коэфф.

Ст. ошибка

p-value

Intercept

-2,6698

0,015

0,0000

RevolvingUtilizationOfUnsecuredLines_woe

-0,7573

0,015

0,0000

age_woe

-0,4322

0,031

0,0000

NumberOfTime30_59DaysPastDueNotWorse_woe

-0,7297

0,015

0,0000

DebtRatio_woe

-0,6024

0,058

0,0000

MonthlyIncome_woe

-0,2494

0,054

0,0000

NumberOfOpenCreditLinesAndLoans_woe

-0,1591

0,067

0,0180

NumberRealEstateLoansOrLines_woe

-0,4617

0,078

0,0000

NumberOfDependents_woe

-0,2125

0,075

0,0050

NumberOfTimes90DaysLate

0,3191

0,016

0,0000

NumberOfTime60_89DaysPastDueNotWorse

-0,3086

0,016

0,0000

Полученная регрессионная модель обладает разделяющей способностью с Gini = 0.6569. Таким образом добавление переменных, для которых не было найдено значимого разбиения, оказывает положительное, но не сильное влияние на ранжирующую силу модели. На рисунке ниже (Рисунок 16) приводится график ROC-кривой полученной модели:

Рисунок 16 - ROC-кривая расширенной модели с заменой на WoE всех переменных

Характеристики моделей с использованием WoE приводятся в таблице ниже (Таблица 15):

Таблица 15. Метрики качества моделей с использованием WoE

GINI

PRC-AUC

WoE заменяет только те переменные, где есть пропуски

0,4020

0,2407

WoE заменяет все переменные, где удалось найти бины

0,6535

0,2725

WoE заменяет все переменные, где удалось найти бины, + переменные, для которых бины не нашлись, в сыром виде

0,6569

0,3104

Сравнение полученных моделей

В таблице ниже (Таблица 16) приводятся метрики качества построенных с использованием различных подходов моделей:

Таблица 16. Первый набор данных. Метрики качества всех моделей.

Группа методов

Метод

Число значимых объясняющих переменных

Gini

PRC-AUC

Исключение пропусков

Пропуски исключены

8

0,3851

0,2373

Замена пропущенных значений

Пропуски заменены нулями

9

0,3925

0,2415

Пропуски заменены средними

10

0,3961

0,2407

Пропуски заменены нулями и средними

9

0,3958

0,2401

WoE преобразование

WoE там, где пропуски

8

0,4020

0,2407

WoE везде, где нашлись бины

8

0,6535

0,2725

WoE везде, где были найдены бины, + переменные, для которых не нашлось разбиения

10

0,6569

0,3104

Можно заметить, что использование WoE преобразования только там, где были пропуски дало несильный прирост ранжирующей силы модели. Однако, применение предлагаемого подхода на всех переменных дало существенный прирост как ранжирующей силы, так и средней точности оценок. Из этого можно сделать вывод, что применение предлагаемого подхода позволило учесть нелинейные зависимости целевой переменной от объясняющих.

3.3 Второй набор данных. Поведенческий скоринг

Данные были собраны в ходе построения поведенческой модели оценки вероятности дефолта заёмщиков одного из коммерческих банков России. В связи с тем, что разработанная в рамках работы модель применяется при принятии решений и оценке резервов, здесь не приводятся вошедшие в модель переменные и коэффициенты при них. Некоторые характеристики портфеля были изменены. В тексте работы приводится общее описание данных и значения метрик качества модели.

Описание данных

В выборку для разработки и тестирования модели были отобраны кредитные договора с датами выдач с июля 2009 года по август 2015 года.

Итоговый набор договоров для разработки модели включал в себя 461 974 записи по 28 858 уникальным клиентам. Событие дефолта зафиксировано по 32 376 записям, таким образом, доля дефолтов в выборке - default rate (DR) составляет ~ 7.0 %.

Набор данных содержит 49 объясняющих переменных и 1 целевую. Список объясняющих переменных приводится в приложении (Приложение 2. Второй набор данных, Таблица 25).

Доли пропусков в переменных приведены в приложении (Приложение 2. Второй набор данных, Таблица 26).

Выборка была разбита случайным образом на два набора данных - обучающий набор для разработки скоринговой модели и тестовый набор для проверки эффективности полученной модели. Описание полученного разбиения приведено в таблице ниже (Таблица 17).

Таблица 17. Разбиение второго набора данных

Тип выборки

Количество договоров

Дефолты

DR%

Доля выборки

Обучающая выборка

322 556

22 585

7,0%

70,0%

Тестовая выборка

139 415

9 791

7,0%

30,0%

Построение модели

Из-за высокого уровня пропусков в объясняющих переменных построение регрессионных моделей без применения предлагаемого подхода не проводилось.

Процесс разработки модели состоял из следующих этапов:

v формирование длинного списка факторов, однофакторный анализ:

Ш трансформация факторов;

Ш оценка дискриминирующей силы факторов и их статистической значимости;

Ш оценка бизнес-логики/бизнес-смысла факторов;

Ш анализ парных корреляций между факторами;

Ш анализ мультиколлинеарности;

v многофакторный анализ, генерация итоговой модели;

v тестирование и калибровка модели.

Длинный список факторов - совокупность переменных, которые потенциально могут влиять на склонность заемщика к дефолту. Длинный список факторов генерируется на этапе подготовки данных. В данном случае длинный список факторов состоит из переменных, характеризующих платежную дисциплину клиента и его основные характеристики. Проведение однофакторного анализа подразумевает преобразование факторов, оценку их дискриминирующей силы, статистической значимости, бизнес-смысла и корреляций. Однофакторный анализ представляет собой анализ влияния каждой (по отдельности) независимой переменной на зависимую переменную - дефолт. Результатом однофакторного анализа является решение о целесообразности включения каждой независимой переменной в короткий список факторов для проведения многофакторного анализа.

Однофакторный анализ

Первым шагом однофакторного анализа являлась трансформация факторов с использованием предлагаемого подхода.

Второй шаг однофакторного анализа - оценка дискриминирующей силы и статистической значимости переменных. Под дискриминирующей силой фактора понимается его способность дифференцировать дефолтные и не дефолтные сделки. Для оценки дискриминирующей способности переменной использовались значение статистики GINI. Чем выше значение GINI, тем большей дискриминирующей силой обладает данный фактор. В таблице ниже (Таблица 18) представлены пороговые значения GINI для определения категории эффективности фактора. На этапе однофакторного анализа должны исключаться факторы с низкой эффективностью ранжирования.

Таблица 18. Эффективности дискриминации фактора

GINI

Категория

менее 5%

низкая эффективность

от 5% до 10%

средняя эффективность

более 10%

высокая эффективность

Статистическая значимость характеризует степень достоверности связи между независимой переменной и зависимой переменной. Для оценки степени статистической значимости вычислялось значение статистики Chi-Square или значение p-value при тестировании гипотезы равенства 0 весового коэффициента при независимом факторе. В таблице ниже (Таблица 19) приведены пороговые значения p-value и соответствующие им категории статистической значимости. На этапе однофакторного анализа следует исключать факторы с низкой статистической значимостью.

Таблица 19. Статистическая значимость фактора

p-value

Категория

более 0.05

низкая статистическая значимость

0.05 - 0.01

средняя статистическая значимость

менее 0.01

высокая статистическая значимость

Третий шаг однофакторного анализа - оценка бизнес-логики/бизнес-смысла факторов риска. Анализ бизнес-логики факторов состоял в проверке корректности взаимосвязи между значениями переменных (или трансформированных переменных) и уровнями дефолтов. Существует два типа такой взаимосвязи - прямая связь и обратная связь. Связь между значениями независимого фактора и уровнем дефолта называется прямой, если с увеличением значения фактора уровень дефолтов уменьшается. В противном случае связь является обратной. Данный тест заключается в сравнении ожидаемого и фактически-наблюдаемого направления связи. Если ожидаемое и фактическое направление связи совпадают - тест считается пройденным, в противном случае тест считается не пройденным и фактор должен быть исключен из дальнейшего анализа.

Четвертым шагом однофакторного анализа являлся анализ парных корреляций. Анализ парных корреляций используется для выявления коллинеарных (билинейных) зависимостей между переменными. Наличие корреляций между факторами повышает стандартные отклонения весов, что снижает их устойчивость и надежность в многофакторном анализе. Для корреляционного анализа была рассчитана матрица корреляций - таблица со значениями коэффициентов парных корреляций преобразованных WOE-факторов. Анализ данной таблицы позволил определить переменные, имеющие высокие линейные связи с другими факторами. Пороговое значение, начиная с которого коэффициенты корреляции признавались высоким, составляет 50%. Из каждой пары коррелирующих факторов для дальнейшего анализа был оставлен только один на основании либо более высокой индивидуальной предиктивной способности, либо большей важности фактора с точки зрения бизнес-логики.

После исключения коррелирующих переменных оставшиеся факторы были проверены на мультиколлинеарность. Для оценки мультиколлинеарности использовался фактор инфляции дисперсии (variance inflation factor - VIF). Переменные, для которых параметр VIF принимает значение 5 и более, считаются мультиколинеарными остальным факторам и были исключены из дальнейшего анализа.

Принятие решения по отбору факторов в короткий список было комплексным и учитывало не только количественные критерии, такие как дискриминирующая способность, статистическая значимость, корректные знаки при весовых коэффициентах, допустимый уровень корреляций и мультиколлинеарности, но также экспертное мнение разработчиков.

Многофакторный анализ

Объектом многофакторного анализа являлся короткий список факторов. Целью многофакторного анализа был отбор из короткого списка совокупности переменных с максимальной дискриминирующей способностью, а также оценка весов для полученной группы факторов, для расчета балла каждой переменной. Статистический алгоритм для реализации многофакторного анализа - бинарная множественная логистическая регрессия. Зависимой переменной является признак дефолта, независимыми переменными - набор WOE-факторов из короткого списка.

Для выбора итоговой модели в процедуре бинарной множественной логистической регрессии использовался пошаговый метод отбора переменных - stepwise selection. Данный метод заключается в последовательном включении факторов в модель, при этом, как только новый фактор входит в модель, процедура может удалить часть переменных, уже находящихся в модели, если они становятся статистически незначимыми при добавлении этого фактора. Уровни значимости для включения и исключения переменных - 5%.

На выборке для обучения итоговая модель продемонстрировала ранжирующую силу с Gini = 0.565. График ROC-кривой на обучающей выборке представлен на рисунке ниже (Рисунок 17).

Рисунок 17. ROC кривая PD модели на выборке для обучения

Тестирование модели

Тестирование модели заключалось в проверке дискриминирующей способности итогового скорингового балла и всех входящих в нее факторов. Проверка моделей проводилась на тестовом наборе данных. На тестовой выборке модель продемонстрировала уровень ранжирования с Gini= 0.579. График ROC кривой модели на тестовой выборке представлен на рисунке ниже (Рисунок 18).

Рисунок 18. ROC кривая PD модели на выборке для тестирования

Для проверки устойчивости модели с течением времени проводилась оценка эффективности ранжирования на выборке «Out of time». Выборка формировалась на данных за 3 месяца (01.09.15-01.12.15). Эффективность ранжирования показала значение GINI равное 0.521. ROC-кривая представлена на рисунке ниже (Рисунок 19).

Рисунок 19. ROC кривая PD модели на выборке OOT

В таблице ниже (Таблица 20) приведены метрики качества итоговой модели.

Таблица 20. Второй набор данных. Метрики качества модели.

Группа методов

Метод

Число значимых объясняющих переменных

Gini

Исключение пропусков

Пропуски исключены

Построение не проводилось

Не оценивалось

Замена пропущенных значений

Пропуски заменены нулями

Пропуски заменены средними

Пропуски заменены нулями и средними

WoE преобразование

WoE там, где пропуски

WoE везде, где были найдены бины, + переменные, для которых не нашлось разбиения

WoE везде, где нашлись бины

Обучение

0,5650

Тест

0,5790

Out of time

0,5210

Высокая ранжирующая сила модели, построенной на трансформированных данных, показывает, что в условиях высокой доли пропущенных значений, не позволяющей строить модели на исходных данных, предлагаемый подход позволяет получить хорошие результаты.

Заключение

Для анализа надёжности заёмщиков были применены статистические и интеллектуальные методы анализа и прогнозирования. Автором предложен подход к анализу надёжности заёмщика, позволяющий повысить эффективность разрабатываемых моделей. В рамках работы были решены следующие задачи:

· Подготовлена информационная база исследования: заявочные и поведенческие характеристики заёмщиков

· Разработан и описан подход к предобработке данных

· С использованием предлагаемого подхода обработаны пропущенные значения и нелинейные зависимости в исходных данных

· Разработаны модели оценки надёжности заёмщика. Оценена их эффективность и вычислены метрики качества.

· Проведён сравнительный анализ моделей, разработанных с использованием предлагаемого подхода и без него, показавший эффективность применения предлагаемого подхода.

Научная новизна

Предложен новый подход к анализу и прогнозированию надёжности заёмщика в условиях неполноты данных с использованием статистических и интеллектуальных методов, позволяющий получать модели с большей предсказательной силой.

Практическая значимость.

Подход к анализу и прогнозированию, предложенный в работе, может быть использован как при оценке кредитных рисков, так и во многих других сферах деятельности. Благодаря применению статистических и интеллектуальных методов обработки данных предлагаемый подход позволяет повысить предсказательную силу классификаторов, основанных на применении логистической регрессии, и сократить трудозатраты, в перспективе сведя участие человека в моделировании до исключительно контрольных функций. Также опубликованная в рамках работы библиотека с реализацией предлагаемого подхода может быть использована в других проектах.

Дальнейшим развитием представленного исследования и подхода к анализу и оценке надёжности заёмщика могут служить следующие направления:

· Адаптация предлагаемого подхода к моделям количественной оценки

· Реализация предлагаемого подхода на различных языках программирования и его публикация

· Оценка других компонент кредитного риска

· Оценка компонент кредитного риска по факторам, характерным для корпоративных заёмщиков

Список использованной литературы

Книги, статьи, нормативно-правовые акты:

1. Allison, P., Missing data -- Quantitative applications in the social sciences. Thousand Oaks, CA: Sage. Vol. 136. (2001)

2. Bhatia M. Credit Risk Management and Basel II. - М.: Risk Books, 2006. - 450 с.

3. Breiman L., Friedman J. H., Olshen R. A., Stone C. J. Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, (1984)

4. Briggs, A., Clark, T., Wolstenholme, J., Clarke, P. Missing... presumed at random: cost-analysis of incomplete data. Health Economics 12, 377-392. (2003)

5. Chen SF, Goodman J. "An empirical study of smoothing techniques for language modeling". Proceedings of the 34th annual meeting on Association for Computational Linguistics. (1996)

6. Good I. J., Osteyee D.B. «Information, Weight of Evidence. The Singularity Between Probability Measures and Signal Detection», (1974)

7. Hosmer D.W., Lemeshow S. Applied Logistic Regression Second Edition, John Wiley & Sons, Inc. (2000)

8. Iden Gilmore V. The Federal Reserve Act: The History and Digest. The National Bank News (1914)

9. Mitchell Tom M., Machine Learning. The Mc-Graw-Hill Companies, Inc., (1997)

10. Powers, David M W "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation" (PDF). Journal of Machine Learning Technologies. 2 (1): 37-63. (2011)

11. Rokach L., Maimon O. Data mining with decision trees: theory and applications 2nd Edition World Scientific Publishing Co. Pte. Ltd. (2015)

12. SAS Institute Multiple Imputation for Missing Data: Concepts and New Approaches. (2005)

13. Schafer, J. L., Analysis of Incomplete Multivariate Data, New York: Chapman and Hall (1997)

14. Shannon Claude E. "A Mathematical Theory of Communication". // Bell System Technical Journal, Vol 27 p. 379-423 (July-October 1948)

15. Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring, (2006)

16. Soley-Bori M., Dealing with missing data: Key assumptions and methods for applied analysis. Boston University. (2013)

17. Stehman, Stephen V. "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. 62 (1): 77-89. doi:10.1016/S0034-4257(97)00083-7 (1997).

18. Stephen A. Rhoades The Herfindahl-Hirschman index. // Federal Reserve Bulletin, issue Mar, pp. 188-189 (1993)

19. Witten Ian; Frank Eibe; Hall Mark Data Mining. Burlington, MA: Morgan Kaufmann. pp. 102-103 (2011)

20. Блэк Дж., Экономика. Толковый словарь. -- М.: "ИНФРА-М", Издательство "Весь Мир". Общая редакция: д.э.н. Осадчая И.М. 2000.

21. Жарковская Е. П., Учебник для студентов вузов, обучающихся по специальности «Финансы и кредит»-- 7-е изд., испр, и доп. -- М.: Издательство «Омега-Л», 2010. -- 479 с. -- (Высшее финансовое образование).

22. Морсман Э. Управление кредитным портфелем. - М.: Альпина Паблишер, 2005. - 208 с.

23. Basel Committee on Banking Supervision (BCBS). Principles for the Management of Credit Risk (2000)

24. Basel Committee on Banking Supervision (BCBS). The Internal Ratings-Based Approach (2001)

25. Basel Committee on Banking Supervision (BCBS). International Convergence of Capital Measurement and Capital Standards: A Revised Framework (2004)

26. Basel Committee on Banking Supervision (BCBS). International Convergence of Capital Measurement and Capital Standards (1988)

27. Конституция Российской Федерации

28. Положение Банка России от 6 августа 2015 г. N 483-П "О порядке расчета величины кредитного риска на основе внутренних рейтингов"

29. Указание Банка России от 15 апреля 2015 года N 3624-У "О требованиях к системе управления рисками и капиталом кредитной организации и банковской группы"

30. Федеральный закон Российской федерации № 86-ФЗ «О Центральном банке Российской Федерации (Банке России)»

Электронные ресурсы:

1. AVERAGE PRECISION [Электронный ресурс] https://sanchom.wordpress.com/tag/average-precision/ (Дата обращения: 03.03.2018)

2. Give Me Some Credit [Электронный ресурс] / Kaggle. - URL: https://www.kaggle.com/c/GiveMeSomeCredit (Дата обращения 28.12.2017).

3. Официальный сайт Банка международных расчётов [Электронный ресурс] https://www.bis.org (Дата обращения: 09.05.2018)

4. Сайт библиотеки NumPy [Электронный ресурс] http://www.numpy.org/ (Дата обращения: 16.05.2018)

5. Сайт проекта Pandas [Электронный ресурс] http://pandas.pydata.org/index.html http://www.numpy.org/ (Дата обращения: 16.05.2018)

6. Сайт библиотеки scikit-learn [Электронный ресурс] http://scikit-learn.org/stable http://www.numpy.org/ (Дата обращения: 16.05.2018)

7. Git репозиторий проекта riskpy [Электронный ресурс] https://github.com/Falconwatch/riskpy http://www.numpy.org/ (Дата обращения: 16.05.2018)

Приложение 1. Модели первого набора данных

Модель с исключёнными пропусками

Таблица 21. Коэффициенты модели с исключёнными пропусками

Коэфф.

Ст. ошибка

z

P>|z|

Intercept

-1,4975

0,056

-26,959

0,0000

age

-0,0255

0,001

-22,882

0,0000

NumberOfTime30_59DaysPastDueNotWorse

0,5144

0,014

36,278

0,0000

MonthlyIncome

-3,56E-05

3,77E-06

-9,457

0,0000

NumberOfOpenCreditLinesAndLoans

-0,0049

0,003

-1,489

0,1360

NumberOfTimes90DaysLate

0,4722

0,02

23,481

0,0000

NumberRealEstateLoansOrLines

0,0785

0,014

5,745

0,0000

NumberOfTime60_89DaysPastDueNotWorse

-0,9512

0,023

-40,9

0,0000

NumberOfDependents

0,0925

0,012

7,951

0,0000

Рисунок 20 - ROC-кривая модели с исключёнными пропусками

Модель с заменой на средние

Таблица 22. Коэффициенты модели с заменой на средние

Коэфф.

Ст. ошибка

z

P>|z|

Intercept

-1,331

0,05

-26,513

0,0000

RevolvingUtilizationOfUnsecuredLines

-0,0284

0,001

-28,643

0,0000

age

0,5046

0,013

38,359

0,0000

NumberOfTime30_59DaysPastDueNotWorse

-1,345E-05

0,0000115

-1,172

0,2410

DebtRatio

-3,194E-05

3,63E-06

-8,791

0,0000

MonthlyIncome

-0,008

0,003

-2,660

0,0080

NumberOfOpenCreditLinesAndLoans

0,4836

0,018

26,576

0,0000

NumberOfTimes90DaysLate

0,0665

0,013

5,154

0,0000

NumberRealEstateLoansOrLines

-0,9567

0,021

-45,160

0,0000

NumberOfTime60_89DaysPastDueNotWorse

0,0887

0,011

8,142

0,0000

NumberOfDependents

-1,331

0,05

-26,513

0,0000

Рисунок 21 - ROC-кривая модели с заменой на среднее

Модель с заменой на нули

Таблица 23. Коэффициенты модели с заменой на нули

Коэфф.

Ст. ошибка

z

P>|z|

Intercept

-1,3681

0,05

-27,495

0,0000

age

-0,0291

0,001

-29,452

0,0000

NumberOfTime30_59DaysPastDueNotWorse

0,5064

0,013

38,485

0,0000

DebtRatio

-4,9E-05

1,41E-05

-3,442

0,0010

MonthlyIncome

-2,6E-05

3,39E-06

-7,668

0,0000

NumberOfOpenCreditLinesAndLoans

-0,0071

0,003

-2,359

0,0180

NumberOfTimes90DaysLate

0,483

0,018

26,541

0,0000

NumberRealEstateLoansOrLines

0,0665

0,013

5,079

0,0000

NumberOfTime60_89DaysPastDueNotWorse

-0,9582

0,021

-45,223

0,0000

NumberOfDependents

0,0951

0,011

8,691

0,0000

Рисунок 22 - ROC-кривая модели с заменой на нули

Модель с заменой на нули и средние

Таблица 24. Коэффициенты модели с заменой на нули и средние

Коэфф.

Ст. ошибка

z

P>|z|

Intercept

-1,3681

0,05

-27,495

0,0000

age

-0,0291

0,001

-29,452

0,0000

NumberOfTime30_59DaysPastDueNotWorse

0,5064

0,013

38,485

0,0000

DebtRatio

-4,87E-05

1,41E-05

-3,442

0,0010

MonthlyIncome

-2,60E-05

3,39E-06

-7,668

0,0000

NumberOfOpenCreditLinesAndLoans

-0,0071

0,003

-2,359

0,0180

NumberOfTimes90DaysLate

0,483

0,018

26,541

0,0000

NumberRealEstateLoansOrLines

0,0665

0,013

5,079

0,0000

NumberOfTime60_89DaysPastDueNotWorse

-0,9582

0,021

-45,223

0,0000

NumberOfDependents

0,0951

0,011

8,691

0,0000

Рисунок 23 - ROC-кривая модели с заменой на нули и средние

Приложение 2. Второй набор данных

Таблица 25. Объясняющие переменные второго набора данных

Имя фактора

Код фактора

Общее кол-во просрочек по клиенту длительностью от 90 до 120 дней до текущей даты среза

CL_PAID_DLQ_90120

Общее кол-во просрочек по клиенту длительностью более 120 дней до текущей даты среза

CL_PAID_DLQ_120P

Тип залога

CL_PLEDGE_TYPE

Вид экономической деятельности (индустрия)

INDUSTRY_ID

Тип клиента (ИП, ФЛ, ООО)

CLIENT_TYPE_ID

Срок от открытия первого договора

MOB_FIRST_ACC

Срок от открытия последнего договора

MOB_LAST_ACC

Время прошедшее с текущей даты до начала первой просрочки по клиенту

DTREP_M_FSTDLQBEG_DAY_CL

Время прошедшее с текущей даты до начала последней просрочки по клиенту

DTREP_M_FSTDLQEND_DAY_CL

Максимальное по клиенту, за последние 12 месяцев, до текущей даты среза, отношение (ПОД и ПРПР) к (ОД, ПОД, ПР и ПРПР)

CL_MAX_PODAMT2ODAMT12M

Максимальное по клиенту, до текущей даты среза, отношение (ПОД и ПРПР) к (ОД, ПОД, ПР и ПРПР)

CL_MAX_PODAMT2ODAMT

Доля: кол-во погашенных без просрочек договоров клиента от общего кол-ва погашенных договоров клиента

CL_TOT_PAIDNODEL_RATE

Отношение кол-ва действующих договоров ко всем имевшим место

CL_TOT_OPEN_ACC_RATE

Задолженность (сроч ОД + просроч ОД) к сумме лимита

PORTF2LIMIT

Задолженность ( ОД, ПОД, ПР и ПРПР по действующим договорам клиента на дату среза) к сумме лимита

AMT2LIMIT

Отношение суммы выплаченных денег по клиенту к сумме долга(ОД, ПОД, ПР и ПРПР по действующим договорам клиента на текущую дату среза)

PAIDAMT2AMT_CL*

Отношение суммы максимальной погашенной просрочки по клиенту к сумме выплаченных денег

MAXDLQAMT2PAIDAMT_CL

Ставка на выдаче

RATE1

Кол-во договоров открытых клиентом за последние 3 мес. до текущей даты среза

CL_TOT_ACC_OPEND3M

Кол-во договоров открытых клиентом за последние 6 мес. до текущей даты среза

CL_TOT_ACC_OPEND6M

Кол-во договоров открытых клиентом за последние 12 мес. до текущей даты среза

CL_TOT_ACC_OPEND12M

Текущие дни просрочки

CL_CUR_DLQ

Максимальная глубина просрочки по договорам клиента за последние 3 мес. до текущей даты среза

CL_MAX_DLQ3M

Максимальная глубина просрочки по договорам клиента за последние 6 мес. до текущей даты среза

CL_MAX_DLQ6M

Максимальная глубина просрочки по договорам клиента за последние 12 мес. до текущей даты среза

CL_MAX_DLQ12M

Максимальная глубина просрочки по договорам клиента до текущей даты среза

CL_MAX_DLQ

Общее кол-во дней погашенных просрочек по договорам клиента за все время до текущей даты среза

CL_DAYS_IN_DLQ

Общее кол-во погашенных просрочек по клиенту за последние 3 мес. до текущей даты среза

CL_PAID_DLQ3M

Общее кол-во погашенных просрочек по клиенту за последние 6 мес. до текущей даты среза

CL_PAID_DLQ6M

Общее кол-во погашенных просрочек по клиенту за последние 12 мес. до текущей даты среза

CL_PAID_DLQ12M

Общее кол-во просрочек по клиенту длительностью от 1 до 5 дней до текущей даты среза

CL_PAID_DLQ_5

Общее кол-во просрочек по клиенту длительностью до 30 дней до текущей даты среза

CL_PAID_DLQ_30

Общее кол-во просрочек по клиенту длительностью от 30 до 60 дней до текущей даты среза

CL_PAID_DLQ_3060

Общее кол-во просрочек по клиенту длительностью от 60 до 90 дней до текущей даты среза

CL_PAID_DLQ_6090

Отношение суммы выплаченных денег по клиенту к сумме долга

PAIDAMT2PORTF_CL

Отношение суммы выплаченных денег (3 мес.) по клиенту к сумме долга

PAIDAMT3M2AMT_CL

Отношение суммы выплаченных денег (3 мес.) по клиенту к сумме долга (ОД)

PAIDAMT3M2PORTF_CL

Отношение суммы выплаченных денег (6 мес.) по клиенту к сумме долга

PAIDAMT6M2AMT_CL

Отношение суммы выплаченных денег (6 мес.) по клиенту к сумме долга (ОД)

PAIDAMT6M2PORTF_CL

Отношение суммы выплаченных денег (12 мес.) по клиенту к сумме долга

PAIDAMT12M2AMT_CL

Отношение суммы выплаченных денег (12 мес.) по клиенту к сумме долга (ОД)

PAIDAMT12M2PORTF_CL

Отношение суммы максимальной погашенной просрочки по клиенту к сумме долга по клиенту

MAXDLQAMT2AMT_CL

Отношение суммы погашенных просрочек по клиенту к сумме долга

PAIDDLQAMT2AMT_CL

Сумма текущей просрочки по действующим договорам клиента на дату среза к сумме ОД (сроч. ОД + просроч. ОД)

CL_CUR_DLQ_AMT2PORTF_CL

Общее кол-во просроченных погашенных платежей по клиенту за все время до текущей даты среза к Общему кол-во погашенных платежей по клиенту за все время до текущей даты среза

CL_PAID_PAYM_DLQ_RATE

Отношение суммы максимальной за 12 мес. просрочки к сумме долга по клиенту

CLMAXDLQAMT12M2CLAMT

Отношение суммы максимальной за 6 мес. просрочки к сумме долга по клиенту

CLMAXDLQAMT6M2CLAMT

Отношение суммы максимальной за 3 мес. просрочки к сумме долга по клиенту

CLMAXDLQAMT3M2CLAMT

Количество действующих договоров клиента с длительностью текущей просрочки 1 день и более на дату среза, отнесенное к общему кол-ву действующих договоров клиента на текущую дату среза

CL_CUR_DLQ_ACC_RATE

Таблица 26. Доли пропусков в объясняющих переменных второго набора данных

Код фактора

Доля пропусков

CL_PAID_DLQ_90120

4%

CL_PAID_DLQ_120P

13%

CL_PLEDGE_TYPE

12%

INDUSTRY_ID

5%

CLIENT_TYPE_ID

17%

MOB_FIRST_ACC

5%

MOB_LAST_ACC

18%

DTREP_M_FSTDLQBEG_DAY_CL

11%

DTREP_M_FSTDLQEND_DAY_CL

9%

CL_MAX_PODAMT2ODAMT12M

5%

CL_MAX_PODAMT2ODAMT

17%

CL_TOT_PAIDNODEL_RATE

4%

CL_TOT_OPEN_ACC_RATE

17%

PORTF2LIMIT

17%

AMT2LIMIT

13%

PAIDAMT2AMT_CL*

10%

MAXDLQAMT2PAIDAMT_CL

5%

RATE1

12%

CL_TOT_ACC_OPEND3M

15%

CL_TOT_ACC_OPEND6M

10%

CL_TOT_ACC_OPEND12M

16%

CL_CUR_DLQ

5%

CL_MAX_DLQ3M

4%

CL_MAX_DLQ6M

13%

CL_MAX_DLQ12M

15%

CL_MAX_DLQ

5%

CL_DAYS_IN_DLQ

11%

CL_PAID_DLQ3M

8%

CL_PAID_DLQ6M

4%

CL_PAID_DLQ12M

14%

CL_PAID_DLQ_5

18%

CL_PAID_DLQ_30

9%

CL_PAID_DLQ_3060

15%

CL_PAID_DLQ_6090

13%

PAIDAMT2PORTF_CL

17%

PAIDAMT3M2AMT_CL

6%

PAIDAMT3M2PORTF_CL

15%

PAIDAMT6M2AMT_CL

9%

PAIDAMT6M2PORTF_CL

12%

PAIDAMT12M2AMT_CL

12%

PAIDAMT12M2PORTF_CL

5%

MAXDLQAMT2AMT_CL

5%

PAIDDLQAMT2AMT_CL

16%

CL_CUR_DLQ_AMT2PORTF_CL

18%

CL_PAID_PAYM_DLQ_RATE

15%

CLMAXDLQAMT12M2CLAMT

6%

CLMAXDLQAMT6M2CLAMT

13%

CLMAXDLQAMT3M2CLAMT

18%

CL_CUR_DLQ_ACC_RATE

13%

Размещено на Allbest.ru


Подобные документы

  • Система управления и методика анализа кредитного риска. Кредитная политика банка. Организационная структура и характеристика Муромцевского отделения № 2257 Сбербанка РФ. Обеспечение возврата банковских ссуд. Недостатки в управлении кредитным риском.

    дипломная работа [108,7 K], добавлен 09.09.2010

  • Нормативно-правовое регулирование кредитного риска и методы его оценка. Организация работы коммерческого банка по управлению кредитным риском. Возможности использования цифровизации банковской деятельности для качественного управления кредитным риском.

    дипломная работа [1,6 M], добавлен 19.01.2021

  • Сущность кредитного риска и факторы, влияющие на него. Общая характеристика и оценка экономических показателей деятельности банка ОАО "Альфа-Банк". Анализ кредитоспособности заемщика. Перспективы и возникающие проблемы в сфере управления кредитным риском.

    дипломная работа [242,6 K], добавлен 05.12.2014

  • Понятие кредитного риска. Сущность системы управления рисками в банке. Необходимость использования современных методов управления кредитным риском в банковской практике. Политика управления кредитным риском коммерческих банков Республики Беларусь.

    курсовая работа [452,0 K], добавлен 08.02.2012

  • Изучение классификации и содержания методов оценки ожидаемого кредитного риска, применяемых коммерческими банками. Исследование основ построения организационной и информационной инфраструктуры системы управления кредитным риском коммерческого банка.

    курсовая работа [153,0 K], добавлен 07.03.2014

  • Оценка современных концепций управления кредитным портфелем в национальной и зарубежной практике. Организация деятельности банка при осуществлении процесса кредитования, направленого на предотвращение или минимизацию кредитного риска, лимитирование.

    контрольная работа [46,9 K], добавлен 13.06.2009

  • Сущность кредитного риска и факторы его определяющие. Последовательность этапов процесса управления кредитным риском. Методы определения кредитоспособности заемщика. Управление риском кредитного портфеля. Уровень ликвидности кредитного портфеля.

    курсовая работа [292,7 K], добавлен 07.04.2012

  • Виды риска в банковской деятельности. Анализ управления кредитным риском на примере ОАО "Сбербанк". Применение оптимальной кредитной политики как основа управления кредитным риском. Мероприятия по снижению кредитного риска. Страхование банковского риска.

    курсовая работа [81,8 K], добавлен 06.01.2015

  • Сущность кредитного риска; способы его минимизации - диверсификация, лимитирование, страхование. Краткая характеристика деятельности ООО "ХКФ Банка", анализ его финансового состояния и определение методики, применяемой для оценки кредитного риска.

    курсовая работа [737,1 K], добавлен 01.04.2011

  • Кредитные риски как разновидность банковских рисков. Анализ кредитоспособности заемщика. Разработка рекомендаций и мероприятий по управлению кредитным риском. Классификация банковского кредитного риска. Управление риском в системе "банк-клиент".

    дипломная работа [152,5 K], добавлен 01.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.