1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modelowanie ryzyka kredytowego w R

Connected

ćwiczenie

Krzywe ROC do porównania modeli regresji logistycznej

Krzywe ROC można łatwo tworzyć za pomocą pakietu pROC w R. Sprawdźmy, czy istnieją istotne różnice między krzywymi ROC dla czterech modeli regresji logistycznej używanych w tym kursie. Krótkie przypomnienie:

  • predictions_logit zawiera prognozy prawdopodobieństwa niewywiązania się ze zobowiązania (PD) z użyciem domyślnej funkcji łączącej logit oraz zmiennych age, emp_cat, ir_cat i loan_amnt.
  • predictions_probit zawiera prognozy PD z użyciem funkcji probit oraz zmiennych age, emp_cat, ir_cat i loan_amnt.
  • predictions_cloglog zawiera prognozy PD z użyciem funkcji łączącej cloglog oraz zmiennych age, emp_cat, ir_cat i loan_amnt.
  • predictions_all_full zawiera prognozy PD z użyciem domyślnej funkcji łączącej logit oraz wszystkich siedmiu zmiennych w zbiorze danych.

Najpierw narysujesz krzywe ROC dla tych czterech modeli na jednym wykresie. Następnie przyjrzysz się polu pod krzywą.

Instrukcje

100 XP
  • Wczytaj pakiet pROC w konsoli R.
  • Skonstruuj obiekty ROC dla czterech modeli regresji logistycznej, używając funkcji roc(response, predictor). Pamiętaj, że odpowiedzią jest wskaźnik statusu kredytu w test_set, który można uzyskać przez test_set$loan_status.
  • Użyj wcześniej utworzonych obiektów, aby narysować krzywe ROC. Aby wyświetlić je wszystkie na jednym wykresie, użyj plot() dla pierwszej krzywej ROC (dla ROC_logit), a lines() dla pozostałych trzech modeli, aby dodać je do tego samego wykresu.
  • Użyj argumentu col, aby zmienić kolor krzywej: ROC_probit na "blue", ROC_cloglog na "red", a ROC_all_full na "green". Zwróć uwagę, że – w przeciwieństwie do tego, co omówiono w filmie – etykieta osi X to Specificity, a nie "1-Specificity", co sprawia, że oś przebiega od 1 po lewej stronie do 0 po prawej.
  • Wydaje się, że funkcja łącząca nie ma tu dużego wpływu na krzywą ROC – głównym czynnikiem poprawiającym jej kształt jest uwzględnienie większej liczby zmiennych w modelu. Aby dokładnie ocenić wydajność krzywych ROC, sprawdź wartości AUC za pomocą funkcji auc().