Eğitim verisini eksik örnekleme (undersampling)

Şimdi Pandas ile birkaç satır kod yazarak eğitim kümesini kendin eksik örnekleyeceksin. Eksik örnekleme tamamlandığında, sonucu doğrulamak için loan_status için değer sayılarına bakabilirsin.

X_y_train, count_nondefault ve count_default çalışma alanına zaten yüklendi. Aşağıdaki kodla oluşturuldular:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Orijinal eğitim verisinin .value_counts() çıktısı otomatik olarak yazdırılacaktır.

Bu egzersiz, kursun bir parçasıdır

Python ile Kredi Riski Modellemesi

Kursa Göz Atın

Egzersiz talimatları

nondefaults ve defaults olarak saklanacak temerrütsüz ve temerrütlü veri kümelerini oluştur.
nondefaults kümesini count_default ile aynı sayıda olacak şekilde örnekle ve nondefaults_under olarak kaydet.
nondefaults ve defaults kümelerini .concat() ile birleştir ve X_y_train_under olarak sakla.
Yeni veri kümesi için kredi durumu .value_counts() çıktısını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())

Kodu Düzenle ve Çalıştır