Sınıf dengesizliklerinden kaçınma
Bazı verilerde sonuçlar çok dengesiz olabilir — nadir bir hastalık veri kümesi gibi. Rastgele böldüğünde, çok talihsiz bir bölme elde edebilirsin. Düşünsene, tüm nadir gözlemler test setinde, eğitim setinde ise hiç yok. Bu, tüm eğitim sürecini berbat eder!
Neyse ki, initial_split() fonksiyonu bunun için bir çözüm sunar. Bu egzersizde, bu tür sınıf dengesizliklerini gözlemleyip çözeceksin.
%75 eğitim ve %25 test bölmesiyle bir diabetes_split nesnesi oluşturmak için gereken kod zaten sağlandı.
Bu egzersiz
R ile Ağaç Tabanlı Modellerle Machine Learning
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Preparation
set.seed(9888)
diabetes_split <- initial_split(diabetes, prop = 0.75)
# Proportion of 'yes' outcomes in the training data
counts_train <- table(training(___)$outcome)
prop_yes_train <- counts_train["___"] / sum(counts_train)
# Proportion of 'yes' outcomes in the test data
counts_test <- table(___)
prop_yes_test <- ___ / sum(___)
paste("Proportion of positive outcomes in training set:", round(prop_yes_train, 2))
paste("Proportion of positive outcomes in test set:", round(prop_yes_test, 2))