MulaiMulai sekarang secara gratis

One-hot encoding data kredit

Sekarang saatnya menyiapkan kolom non-numerik agar dapat dimasukkan ke dalam model LogisticRegression() Anda.

Setelah kolom baru dibuat menggunakan one-hot encoding, Anda dapat menggabungkannya dengan kolom numerik untuk membuat data frame baru yang akan digunakan sepanjang sisa kursus untuk memprediksi probability of default.

Ingatlah untuk hanya melakukan one-hot encoding pada kolom non-numerik. Menerapkannya pada kolom numerik akan membuat himpunan data menjadi sangat lebar!

Data pinjaman kredit, cr_loan_clean, telah dimuat di workspace.

Latihan ini adalah bagian dari kursus

Pemodelan Risiko Kredit dengan Python

Lihat Kursus

Petunjuk latihan

  • Buat himpunan data untuk semua kolom numerik bernama cred_num dan satu lagi untuk kolom non-numerik bernama cred_str.
  • Gunakan one-hot encoding pada cred_str untuk membuat himpunan data baru bernama cred_str_onehot.
  • Lakukan union cred_num dengan data hasil one-hot encoding yang baru dan simpan hasilnya sebagai cr_loan_prep.
  • Cetak kolom-kolom dari himpunan data yang baru.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])

# One-hot encode the non-numeric columns
____ = pd.____(____)

# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)

# Print the columns in the new data set
print(____.columns)
Edit dan Jalankan Kode