Eğitim setinde eksik örnekleme (undersampling)
Videoda, dengesiz veri sorununu aşmak için eksik örnekleme (undersampling) veya fazla örnekleme (oversampling) kullanabileceğini gördün. Eğitim seti senin için eksik örneklenmiş durumda; buna göre eğitim setinin 1/3'ü temerrütlerden, 2/3'ü temerrüt dışından oluşuyor. Ortaya çıkan veri kümesi çalışma alanında undersampled_training_set adıyla mevcut ve daha az gözlem içeriyor (19394 yerine 6570). Bu egzersizde, eksik örneklenmiş veri kümesini kullanarak bir karar ağacı oluşturacaksın.
Bu ve sonraki egzersizlerdeki ağaçların çok büyük olduğunu, hatta okunamayacak kadar büyük olduklarını fark edeceksin. Şimdilik endişelenme; bir sonraki videoda bunları nasıl daha yönetilebilir hale getireceğini anlatacağız!
Bu egzersiz
R ile Kredi Riski Modellemesi
kursunun bir parçasıdırEgzersiz talimatları
- rpart paketi senin için kuruldu. Paketi çalışma alanına yükle.
- Verilen kodu,
training_setyerine eksik örneklenmiş eğitim setini kullanarak bir karar ağacı oluşturacak şekilde değiştir. Buna ek olarakcontrol = rpart.control(cp = 0.001)argümanını ekle. Karmaşıklık parametresi olancp, herhangi bir bölünme için toplam uyumsuzluktaki azalma eşiğidir.cpeşiği sağlanmazsa daha fazla bölünme denenmez.cp'nin varsayılan değeri 0.01'dir, ancak karmaşık problemler içincp'yi esnetmek önerilir. - Karar ağacını, plot fonksiyonunu ve ağaç nesnesinin adını kullanarak çiz. Eşit boyutlu dallar elde etmek için ikinci argüman olarak
uniform = TRUEekle. - Önceki komut, üzerinde metin (ya da “etiket”) olmayan düğüm ve kenarlardan oluşan bir ağaç oluşturur. Etiket eklemek için yalnızca
tree_undersampleargümanıylatext()fonksiyonunu kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load package rpart in your workspace.
# Change the code provided in the video such that a decision tree is constructed using the undersampled training set. Include rpart.control to relax the complexity parameter to 0.001.
tree_undersample <- rpart(loan_status ~ ., method = "class",
data = training_set)
# Plot the decision tree
# Add labels to the decision tree