Pengodean kategorikal
Rekan Anda telah mengonversi kolom-kolom dalam himpunan data kredit menjadi nilai numerik menggunakan LabelEncoder(). Ia meninggalkan satu kolom: credit_history, yang merekam riwayat kredit pemohon. Anda ingin membuat dua versi himpunan data. Satu akan menggunakan LabelEncoder() dan satu lagi one-hot encoding, untuk tujuan perbandingan. Matriks fitur tersedia sebagai credit. Anda sudah memiliki LabelEncoder() yang dimuat sebelumnya dan pandas sebagai pd.
Latihan ini merupakan bagian dari kursus
Merancang Alur Kerja Machine Learning di Python
Instruksi latihan
- Enkode
credit_historymenggunakanLabelEncoder(). - Konkatenasikan hasilnya ke frame asli.
- Buat data frame baru dengan mengonkatenasikan dummy 1-hot encoding ke frame asli.
- Konfirmasi bahwa 1-hot encoding menghasilkan lebih banyak kolom dibanding label encoding.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create numeric encoding for credit_history
credit_history_num = ____.____(
credit[____])
# Create a new feature matrix including the numeric encoding
X_num = pd.concat([X, pd.Series(____)], ____)
# Create new feature matrix with dummies for credit_history
X_hot = pd.concat(
[X, ____.____(credit[____])], ____)
# Compare the number of features of the resulting DataFrames
print(X_hot.shape[____] > X_num.shape[____])