Mempertahankan data hilang
Dalam beberapa situasi, fakta bahwa sebuah masukan hilang merupakan informasi penting itu sendiri. NA dapat dipertahankan dalam kategori "missing" terpisah menggunakan coarse classification.
Coarse classification memungkinkan Anda menyederhanakan data dan meningkatkan keterjelasan interpretasi model. Coarse classification mengharuskan Anda mengelompokkan respons ke dalam grup yang berisi rentang nilai. Anda dapat menggunakan teknik pengelompokan ini untuk menempatkan semua NA dalam kelompoknya sendiri.
Dalam video, kami mengilustrasikan gagasan coarse classification untuk lama masa kerja. Kode dari contoh tersebut telah direproduksi dalam skrip R di sebelah kanan dan dapat diadaptasi untuk melakukan coarse classification pada variabel int_rate.
Latihan ini adalah bagian dari kursus
Pemodelan Risiko Kredit di R
Petunjuk latihan
- Lakukan perubahan yang diperlukan pada kode yang disediakan untuk melakukan coarse classification pada
int_rate, lalu simpan hasilnya ke variabel baru bernamair_cat.- Pertama, ganti
loan_data$emp_catdenganloan_data$ir_catdi tempat kemunculannya dalam skrip R, serta gantiloan_data$emp_lengthdenganloan_data$int_rate. - Selanjutnya, variabel harus dikelompokkan ke dalam kategori
"0-8","8-11","11-13.5", dan"13.5+"(menggantikan"0-15","15-30","30-45"dan"45+"). Penggunaan>dan<=persis seperti di video. Pastikan untuk mengubah angka pada pernyataan kondisional juga (15, 30, dan 45 harus diubah menjadi 8, 11, dan 13.5 masing-masing).
- Pertama, ganti
- Lihat variabel baru Anda
ir_catmenggunakanplot(loan_data$ir_cat).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Make the necessary replacements in the coarse classification example below
loan_data$emp_cat <- rep(NA, length(loan_data$emp_length))
loan_data$emp_cat[which(loan_data$emp_length <= 15)] <- "0-15"
loan_data$emp_cat[which(loan_data$emp_length > 15 & loan_data$emp_length <= 30)] <- "15-30"
loan_data$emp_cat[which(loan_data$emp_length > 30 & loan_data$emp_length <= 45)] <- "30-45"
loan_data$emp_cat[which(loan_data$emp_length > 45)] <- "45+"
loan_data$emp_cat[which(is.na(loan_data$emp_length))] <- "Missing"
loan_data$emp_cat <- as.factor(loan_data$emp_cat)
# Look at your new variable using plot()