BaşlayınÜcretsiz Başlayın

Eksik veriyi tutmak

Bazı durumlarda, bir girdinin eksik olması başlı başına önemli bir bilgidir. NA değerleri, kaba sınıflandırma kullanılarak ayrı bir "missing" kategorisinde tutulabilir.

Kaba sınıflandırma, verilerini sadeleştirmeni ve modelinin yorumlanabilirliğini artırmanı sağlar. Kaba sınıflandırma, yanıtlarını değer aralıkları içeren gruplara ayırmanı gerektirir. Bu gruplama tekniğini, tüm NA değerlerini kendi grubuna yerleştirmek için kullanabilirsin.

Videoda, istihdam süresi için kaba sınıflandırma fikrini örneklemiştik. O örnekteki kod sağdaki R betiğinde yeniden üretildi ve int_rate değişkenini kaba sınıflandırmak için uyarlanabilir.

Bu egzersiz

R ile Kredi Riski Modellemesi

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Verilen kodda gerekli değişiklikleri yaparak int_rate için kaba sınıflandırma yap ve sonucu ir_cat adlı yeni bir değişkende sakla.
    • Önce, R betiğinde geçtiği her yerde loan_data$emp_cat ifadesini loan_data$ir_cat ile ve loan_data$emp_length ifadesini loan_data$int_rate ile değiştir.
    • Ardından, değişkenler "0-8", "8-11", "11-13.5" ve "13.5+" kategorilerine ayrılmalı ( "0-15","15-30","30-45" ve "45+" yerine). > ve <= kullanımı videodakiyle birebir aynı olmalı. Koşullu ifadelerdeki sayıları da değiştirdiğinden emin ol (15, 30 ve 45; sırasıyla 8, 11 ve 13.5 olarak değiştirilmeli).
  • Yeni değişkenin ir_cat çıktısına plot(loan_data$ir_cat) kullanarak bak.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Make the necessary replacements in the coarse classification example below 
loan_data$emp_cat <- rep(NA, length(loan_data$emp_length))

loan_data$emp_cat[which(loan_data$emp_length <= 15)] <- "0-15"
loan_data$emp_cat[which(loan_data$emp_length > 15 & loan_data$emp_length <= 30)] <- "15-30"
loan_data$emp_cat[which(loan_data$emp_length > 30 & loan_data$emp_length <= 45)] <- "30-45"
loan_data$emp_cat[which(loan_data$emp_length > 45)] <- "45+"
loan_data$emp_cat[which(is.na(loan_data$emp_length))] <- "Missing"

loan_data$emp_cat <- as.factor(loan_data$emp_cat)

# Look at your new variable using plot()
Kodu Düzenle ve Çalıştır