Undersampling data pelatihan
Sekarang saatnya Anda melakukan undersampling pada himpunan pelatihan dengan beberapa baris kode dari Pandas. Setelah undersampling selesai, Anda dapat memeriksa jumlah nilai untuk loan_status guna memverifikasi hasilnya.
X_y_train, count_nondefault, dan count_default sudah dimuat di ruang kerja. Objek-objek ini dibuat menggunakan kode berikut:
X_y_train = pd.concat([X_train.reset_index(drop = True),
y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()
.value_counts() untuk data pelatihan asli akan tercetak secara otomatis.
Latihan ini adalah bagian dari kursus
Pemodelan Risiko Kredit dengan Python
Petunjuk latihan
- Buat himpunan data untuk non-default dan default yang disimpan sebagai
nondefaultsdandefaults. - Ambil sampel
nondefaultshingga jumlahnya sama dengancount_defaultdan simpan sebagainondefaults_under. - Gabungkan
nondefaultsdandefaultsmenggunakan.concat()dan simpan sebagaiX_y_train_under. - Cetak
.value_counts()dari status pinjaman untuk himpunan data baru.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]
# Undersample the non-defaults
____ = nondefaults.sample(____)
# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
____.reset_index(drop = True)], axis = 0)
# Print the value counts for loan status
print(____[____].____())