Daha fazla model sadeleştirme?
loan_amnt değişkeni silindiğinde, AUC 0.6548’e kadar daha da iyileşiyor! Ortaya çıkan model:
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, family = binomial, data = training_set)
Lojistik regresyon modelini AUC’yi düşürmeden sadece iki değişkene indirebilir misin? Bu egzersizde mümkün olup olmadığını göreceksin!
Bu egzersiz
R ile Kredi Riski Modellemesi
kursunun bir parçasıdırEgzersiz talimatları
log_4_remove_amntmodelinde yine her seferinde bir değişkeni kaldır; varsayılan bağ fonksiyonunu (logit) kullandığını unutma.- Oluşturduğun her model için
predict()ile temerrüt olasılığı tahminleri üret. - Üç modelin her biri için AUC değerlerini hesapla; ilk argüman olarak
test_set$loan_status, ikinci argüman olarak ise her bir modelin tahminlerini kullan. - Çalışma alanında AUC’si en yüksek olan model için ROC eğrisini
plot(roc())ile çiz;roc()içeriği, en yüksek AUC’yi verenauc()fonksiyonundaki argümanlarla aynı olmalı.log_4_remove_amntmodeline kıyasla AUC’nin artık daha fazla düşürülememesi de mümkündür. Bu model en yüksek AUC’yi verirse, bu modele ait tahminler çalışma alanınapred_4_remove_amntolarak yüklenmiştir.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Build three models each time deleting one variable in log_4_remove_amnt
log_5_remove_grade <- glm(loan_status ~ annual_inc + emp_cat, family = binomial, data = training_set)
log_5_remove_inc <-
log_5_remove_emp <-
# Make PD-predictions for each of the models
pred_5_remove_grade <- predict(log_5_remove_grade, newdata = test_set, type = "response")
pred_5_remove_inc <-
pred_5_remove_emp <-
# Compute the AUCs
# Plot the ROC-curve for the best model here