MulaiMulai sekarang secara gratis

Undersampling data pelatihan

Sekarang saatnya Anda melakukan undersampling pada himpunan pelatihan dengan beberapa baris kode dari Pandas. Setelah undersampling selesai, Anda dapat memeriksa jumlah nilai untuk loan_status guna memverifikasi hasilnya.

X_y_train, count_nondefault, dan count_default sudah dimuat di ruang kerja. Objek-objek ini dibuat menggunakan kode berikut:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

.value_counts() untuk data pelatihan asli akan tercetak secara otomatis.

Latihan ini adalah bagian dari kursus

Pemodelan Risiko Kredit dengan Python

Lihat Kursus

Petunjuk latihan

  • Buat himpunan data untuk non-default dan default yang disimpan sebagai nondefaults dan defaults.
  • Ambil sampel nondefaults hingga jumlahnya sama dengan count_default dan simpan sebagai nondefaults_under.
  • Gabungkan nondefaults dan defaults menggunakan .concat() dan simpan sebagai X_y_train_under.
  • Cetak .value_counts() dari status pinjaman untuk himpunan data baru.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create data sets for defaults and non-defaults
____ = ____[____[____] == 0]
____ = ____[____[____] == 1]

# Undersample the non-defaults
____ = nondefaults.sample(____)

# Concatenate the undersampled nondefaults with defaults
____ = pd.____([____.reset_index(drop = True),
                             ____.reset_index(drop = True)], axis = 0)

# Print the value counts for loan status
print(____[____].____())
Edit dan Jalankan Kode