MulaiMulai sekarang secara gratis

Mempertahankan data hilang

Dalam beberapa situasi, fakta bahwa sebuah masukan hilang merupakan informasi penting itu sendiri. NA dapat dipertahankan dalam kategori "missing" terpisah menggunakan coarse classification.

Coarse classification memungkinkan Anda menyederhanakan data dan meningkatkan keterjelasan interpretasi model. Coarse classification mengharuskan Anda mengelompokkan respons ke dalam grup yang berisi rentang nilai. Anda dapat menggunakan teknik pengelompokan ini untuk menempatkan semua NA dalam kelompoknya sendiri.

Dalam video, kami mengilustrasikan gagasan coarse classification untuk lama masa kerja. Kode dari contoh tersebut telah direproduksi dalam skrip R di sebelah kanan dan dapat diadaptasi untuk melakukan coarse classification pada variabel int_rate.

Latihan ini adalah bagian dari kursus

Pemodelan Risiko Kredit di R

Lihat Kursus

Petunjuk latihan

  • Lakukan perubahan yang diperlukan pada kode yang disediakan untuk melakukan coarse classification pada int_rate, lalu simpan hasilnya ke variabel baru bernama ir_cat.
    • Pertama, ganti loan_data$emp_cat dengan loan_data$ir_cat di tempat kemunculannya dalam skrip R, serta ganti loan_data$emp_length dengan loan_data$int_rate.
    • Selanjutnya, variabel harus dikelompokkan ke dalam kategori "0-8", "8-11", "11-13.5", dan "13.5+" (menggantikan "0-15","15-30","30-45" dan "45+"). Penggunaan > dan <= persis seperti di video. Pastikan untuk mengubah angka pada pernyataan kondisional juga (15, 30, dan 45 harus diubah menjadi 8, 11, dan 13.5 masing-masing).
  • Lihat variabel baru Anda ir_cat menggunakan plot(loan_data$ir_cat).

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Make the necessary replacements in the coarse classification example below 
loan_data$emp_cat <- rep(NA, length(loan_data$emp_length))

loan_data$emp_cat[which(loan_data$emp_length <= 15)] <- "0-15"
loan_data$emp_cat[which(loan_data$emp_length > 15 & loan_data$emp_length <= 30)] <- "15-30"
loan_data$emp_cat[which(loan_data$emp_length > 30 & loan_data$emp_length <= 45)] <- "30-45"
loan_data$emp_cat[which(loan_data$emp_length > 45)] <- "45+"
loan_data$emp_cat[which(is.na(loan_data$emp_length))] <- "Missing"

loan_data$emp_cat <- as.factor(loan_data$emp_cat)

# Look at your new variable using plot()
Edit dan Jalankan Kode