Pengodean kategorikal
Rekan Anda telah mengonversi kolom-kolom dalam himpunan data kredit menjadi nilai numerik menggunakan LabelEncoder(). Ia meninggalkan satu kolom: credit_history, yang merekam riwayat kredit pemohon. Anda ingin membuat dua versi himpunan data. Satu akan menggunakan LabelEncoder() dan satu lagi one-hot encoding, untuk tujuan perbandingan. Matriks fitur tersedia sebagai credit. Anda sudah memiliki LabelEncoder() yang dimuat sebelumnya dan pandas sebagai pd.
Latihan ini adalah bagian dari kursus
Merancang Alur Kerja Machine Learning di Python
Petunjuk latihan
- Enkode
credit_historymenggunakanLabelEncoder(). - Konkatenasikan hasilnya ke frame asli.
- Buat data frame baru dengan mengonkatenasikan dummy 1-hot encoding ke frame asli.
- Konfirmasi bahwa 1-hot encoding menghasilkan lebih banyak kolom dibanding label encoding.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create numeric encoding for credit_history
credit_history_num = ____.____(
credit[____])
# Create a new feature matrix including the numeric encoding
X_num = pd.concat([X, pd.Series(____)], ____)
# Create new feature matrix with dummies for credit_history
X_hot = pd.concat(
[X, ____.____(credit[____])], ____)
# Compare the number of features of the resulting DataFrames
print(X_hot.shape[____] > X_num.shape[____])