Дата зміни інформації:

Куца К. В. “ОЦІНЮВАННЯ КРЕДИТОСПРОМОЖНОСТІ ОСІБ ЗА ДОПОМОГОЮ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ”

ІV курс, навчально-науковий комплекс «Інститут прикладного системного аналізу»,

Терентьєв О. М.,  к. т. н.

Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

Київ

Однією з основних проблем банків є кредитний ризик, і його управління в якості кредиту або позик та авансів є основним джерелом доходу для них. При видачі кредитів банк повинен аналізувати фінансовий стан позичальників для того, щоб мінімізувати кредитний ризик. Саме тому управління кредитним ризиком для ефективного управління фінансовою установою традиційно є актуальним. Метою роботи є розробка моделі кредитного скорингу, заснована на аналізі даних по кредитній поведінці клієнтів, отриманих із зовнішніх джерел.

Завдання ускладнюється тим, що дані неповні: деякі джерела не містять інформації про частину виданих кредитів, суперечливі – джерела містять різні значення атрибутів по одному і тому ж кредиту. Необхідно розробити модель кредитного скорингу, яка буде передбачати визначення кредитного рейтингу клієнта.

В ході дослідження опрацьовано набори даних з інформацією про клієнтів одного з банків України, які складаються з 34 змінних та містять 1,8 млн спостережень.

Етапи вирішення задачі:

1) Підготовка даних – ефективний спосіб об’єднання даних декількох джерел і пошуку і фільтрації викидів.

2) Моделювання – застосування аналітичних алгоритмів до очищених даних

2.1) Вибір моделі, яка передбачає кредитний рейтинг клієнта (у даній роботі розглядається модель бінарної класифікації, а саме – логістична регресія).

2.2) Вибір метрику оцінювання якості моделі. Для оцінки якості моделі на тестовій вибірці використано ROC AUC (Receiver operating characteristic area under curve) – площа під ROC-кривою.

При побудові скорингової вхідні дані були отримані з чотирьох різних джерел щодо надходження кредитних заявок від клієнтів. За допомогою системи SAS Enterprise Guide було зроблене об’єднання даних в єдине джерело. Далі у  системі SAS Enterprise Miner були побудовані дві моделі – дерева рішень та логістична регресія (рис. 1).

Рис. 1. Схема технологічного процесу в системі SAS Enterprise Miner.

По відношенню до змінної (CREDIT_FACILITY), яка містить 94% пропусків, була застосована операція створення нової індикаторної змінної, що приймає значення 1, коли поле CREDIT_FACILITY заповнене, та 0 – в протилежному випадку. Для цього був використаний компонент Impute SAS Enterprise Miner, з відповідними налаштуваннями.

Аналіз цільової змінної показав, що на первинний відгук припадає лише 3,2 відсотки всіх спостережень. Більшість фахівців, в таких випадках, радять або створювати збалансовану вибірку, або шукати оптимальне співвідношення відгуків. В рамках даної роботи було запропоновано використати стандартний компонент SAS Enterprise Miner – Sample  для створення навчальної та тестових вибірок зі співвідношенням відгуків від 1 до 7.

Результати розбивки у співвідношенні 1 до 7, із використанням компоненту Sample:

Data=DATA

             Numeric    Formatted    Frequency

Variable     Value       Value        Count      Percent    Label

   DEF          0           0          853855     96.7160

  DEF          1           1           28993      3.2840

  Data=SAMPLE

             Numeric    Formatted    Frequency

Variable     Value       Value        Count      Percent    Label

   DEF          0           0          202951       87.5

  DEF          1           1           28993       12.5

Для вибору кращої моделі пропонується використовувати співвідношення прибутку та втрат. Для цього використано компонент Decision, з налаштуванням константної матриці прибутку, а саме введення інверсних ваг вартості прийняття рішення для клієнта, що поверне кредит в 31 одиниці, для банку – тура в одну одиницю.

На рис. 2 наведені оцінки коефіцієнтів моделі логістичної регресії, побудованої в системі SAS Enterprise Miner. В якості критерію вибору кращої моделі використовувався Validation Profit/Loss.

Рис. 2. Скріншот LOG-файлу структури моделі логістичної регресії.

Як можна побачити з результатів моделювання (табл.1), кращою виявилася модель логістичної регресії. Порівняння моделей було здійснено на основі значення ROC-кривої за допомогою компоненту Model Comparison.

Таблиця 1.

Порівняння результатів моделювання (компонент Model Comparison)

  Logistic Regression Decision Tree
Misclassification Rate 0,1558 0,1634
ROC index 0,7940 0,7550
Gini 0,5880 0,5090
Total profit (Validate) 269646 230957

Наведені на рис. 3 ROC-криві отриманих моделей на навчальній і валідаційній вибірках показують, що ROC-крива моделі логістичної регресії розміщена вище, ніж крива моделі дерева рішень. Тому, можна зробити висновок, що модель регресії виявилася кращою.

Рис. 3. ROC-криві отриманих моделей на навчальній і валідаційній вибірках

 Як показало проведене дослідження, кращою виявилася модель логістичної регресії, яка показала кращий результат на тренувальній і валідаційній вибірках. Використання моделі логістичної регресії, як і інших методів та моделей інтелектуального аналізу даних, є ефективним методом оцінювання кредитоспроможності позичальників, що дасть можливість банкам знизити ризик неповернення виданих кредитів.

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

  1. Терентьев А. Н. SAS Base: Основы программирования / Терентьев А. Н., Домрачев В. Н., Костецкий Р. И. — Киев : Эдельвейс, 2014. — 303 с. :
  2. Susan J. Slaughter The Little SAS Book for Enterprise Guide 4.1. Cary, NC, USA.: SAS Institute Inc., 2006 – 586 с.
  3. SAS Documentation. Enterprise Guide [Електронний ресурс] : – Режим доступу – http://support.sas.com/documentation/onlinedoc/guide/
  4. SAS Product Documentation[Електронний ресурс] : – Режим доступу http://support.sas.com/
  5. SAS On Demand for Academics[Електронний ресурс] : – Режим доступу https://odamid.oda.sas.com/

 

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Введіть цифри, що зображені у квадратах *