Undersampling data pelatihan

Sekarang saatnya Anda melakukan undersampling pada himpunan pelatihan dengan beberapa baris kode dari Pandas. Setelah undersampling selesai, Anda dapat memeriksa jumlah nilai untuk loan_status guna memverifikasi hasilnya.

X_y_train, count_nondefault, dan count_default sudah dimuat di ruang kerja. Objek-objek ini dibuat menggunakan kode berikut:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

.value_counts() untuk data pelatihan asli akan tercetak secara otomatis.

Latihan ini merupakan bagian dari kursus

Pemodelan Risiko Kredit dengan Python

Lihat Kursus

Instruksi latihan

Buat himpunan data untuk non-default dan default yang disimpan sebagai nondefaults dan defaults.
Ambil sampel nondefaults hingga jumlahnya sama dengan count_default dan simpan sebagai nondefaults_under.
Gabungkan nondefaults dan defaults menggunakan .concat() dan simpan sebagai X_y_train_under.
Cetak .value_counts() dari status pinjaman untuk himpunan data baru.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())

Edit dan Jalankan Kode