One-hot encoding data kredit
Sekarang saatnya menyiapkan kolom non-numerik agar dapat dimasukkan ke dalam model LogisticRegression() Anda.
Setelah kolom baru dibuat menggunakan one-hot encoding, Anda dapat menggabungkannya dengan kolom numerik untuk membuat data frame baru yang akan digunakan sepanjang sisa kursus untuk memprediksi probability of default.
Ingatlah untuk hanya melakukan one-hot encoding pada kolom non-numerik. Menerapkannya pada kolom numerik akan membuat himpunan data menjadi sangat lebar!
Data pinjaman kredit, cr_loan_clean, telah dimuat di workspace.
Latihan ini adalah bagian dari kursus
Pemodelan Risiko Kredit dengan Python
Petunjuk latihan
- Buat himpunan data untuk semua kolom numerik bernama
cred_numdan satu lagi untuk kolom non-numerik bernamacred_str. - Gunakan one-hot encoding pada
cred_struntuk membuat himpunan data baru bernamacred_str_onehot. - Lakukan union
cred_numdengan data hasil one-hot encoding yang baru dan simpan hasilnya sebagaicr_loan_prep. - Cetak kolom-kolom dari himpunan data yang baru.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create two data sets for numeric and non-numeric data
____ = ____.select_dtypes(exclude=['object'])
____ = ____.select_dtypes(include=['object'])
# One-hot encode the non-numeric columns
____ = pd.____(____)
# Union the one-hot encoded columns to the numeric ones
____ = pd.concat([____, ____], axis=1)
# Print the columns in the new data set
print(____.columns)