Eksik veriyi tutmak
Bazı durumlarda, bir girdinin eksik olması başlı başına önemli bir bilgidir. NA değerleri, kaba sınıflandırma kullanılarak ayrı bir "missing" kategorisinde tutulabilir.
Kaba sınıflandırma, verilerini sadeleştirmeni ve modelinin yorumlanabilirliğini artırmanı sağlar. Kaba sınıflandırma, yanıtlarını değer aralıkları içeren gruplara ayırmanı gerektirir. Bu gruplama tekniğini, tüm NA değerlerini kendi grubuna yerleştirmek için kullanabilirsin.
Videoda, istihdam süresi için kaba sınıflandırma fikrini örneklemiştik. O örnekteki kod sağdaki R betiğinde yeniden üretildi ve int_rate değişkenini kaba sınıflandırmak için uyarlanabilir.
Bu egzersiz
R ile Kredi Riski Modellemesi
kursunun bir parçasıdırEgzersiz talimatları
- Verilen kodda gerekli değişiklikleri yaparak
int_rateiçin kaba sınıflandırma yap ve sonucuir_catadlı yeni bir değişkende sakla.- Önce, R betiğinde geçtiği her yerde
loan_data$emp_catifadesiniloan_data$ir_catile veloan_data$emp_lengthifadesiniloan_data$int_rateile değiştir. - Ardından, değişkenler
"0-8","8-11","11-13.5"ve"13.5+"kategorilerine ayrılmalı ("0-15","15-30","30-45"ve"45+"yerine).>ve<=kullanımı videodakiyle birebir aynı olmalı. Koşullu ifadelerdeki sayıları da değiştirdiğinden emin ol (15, 30 ve 45; sırasıyla 8, 11 ve 13.5 olarak değiştirilmeli).
- Önce, R betiğinde geçtiği her yerde
- Yeni değişkenin
ir_catçıktısınaplot(loan_data$ir_cat)kullanarak bak.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Make the necessary replacements in the coarse classification example below
loan_data$emp_cat <- rep(NA, length(loan_data$emp_length))
loan_data$emp_cat[which(loan_data$emp_length <= 15)] <- "0-15"
loan_data$emp_cat[which(loan_data$emp_length > 15 & loan_data$emp_length <= 30)] <- "15-30"
loan_data$emp_cat[which(loan_data$emp_length > 30 & loan_data$emp_length <= 45)] <- "30-45"
loan_data$emp_cat[which(loan_data$emp_length > 45)] <- "45+"
loan_data$emp_cat[which(is.na(loan_data$emp_length))] <- "Missing"
loan_data$emp_cat <- as.factor(loan_data$emp_cat)
# Look at your new variable using plot()