Reduksi model lebih lanjut?
Dengan menghapus variabel loan_amnt, AUC dapat ditingkatkan lebih lanjut menjadi 0,6548! Model yang dihasilkan adalah
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, family = binomial, data = training_set)
Apakah mungkin mereduksi model regresi logistik menjadi hanya dua variabel tanpa menurunkan AUC? Pada latihan ini Anda akan melihat apakah hal tersebut memungkinkan!
Latihan ini adalah bagian dari kursus
Pemodelan Risiko Kredit di R
Petunjuk latihan
- Sekali lagi, hapus satu variabel pada satu waktu dalam model
log_4_remove_amnt. Ingat bahwa Anda harus menggunakan fungsi taut default (logit). - Gunakan
predict()untuk membuat prediksi probabilitas gagal bayar untuk setiap model yang Anda buat. - Peroleh nilai AUC untuk masing-masing dari ketiga model, dengan menggunakan
test_set$loan_statussebagai argumen pertama dan prediksi untuk ketiga model sebagai argumen kedua. - Plot kurva ROC untuk model dengan AUC tertinggi di ruang kerja Anda, menggunakan
plot(roc())di mana isiroc()sama dengan isi fungsiauc()dengan AUC tertinggi. Perhatikan bahwa ada kemungkinan AUC tidak dapat diturunkan lagi dibandingkan dengan modellog_4_remove_amnt. Prediksi untuk model ini telah dimuat di ruang kerja Anda sebagaipred_4_remove_amnt, jika model ini menghasilkan AUC tertinggi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build three models each time deleting one variable in log_4_remove_amnt
log_5_remove_grade <- glm(loan_status ~ annual_inc + emp_cat, family = binomial, data = training_set)
log_5_remove_inc <-
log_5_remove_emp <-
# Make PD-predictions for each of the models
pred_5_remove_grade <- predict(log_5_remove_grade, newdata = test_set, type = "response")
pred_5_remove_inc <-
pred_5_remove_emp <-
# Compute the AUCs
# Plot the ROC-curve for the best model here