Eğitim verisini eksik örnekleme (undersampling)
Şimdi Pandas ile birkaç satır kod yazarak eğitim kümesini kendin eksik örnekleyeceksin. Eksik örnekleme tamamlandığında, sonucu doğrulamak için loan_status için değer sayılarına bakabilirsin.
X_y_train, count_nondefault ve count_default çalışma alanına zaten yüklendi. Aşağıdaki kodla oluşturuldular:
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
Orijinal eğitim verisinin .value_counts() çıktısı otomatik olarak yazdırılacaktır.
Bu egzersiz
Python ile Kredi Riski Modellemesi
kursunun bir parçasıdırEgzersiz talimatları
nondefaultsvedefaultsolarak saklanacak temerrütsüz ve temerrütlü veri kümelerini oluştur.nondefaultskümesinicount_defaultile aynı sayıda olacak şekilde örnekle venondefaults_underolarak kaydet.nondefaultsvedefaultskümelerini.concat()ile birleştir veX_y_train_underolarak sakla.- Yeni veri kümesi için kredi durumu
.value_counts()çıktısını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())