One-Hot encoding
Masalah dengan label encoding adalah asumsi implisit bahwa ada ketergantungan peringkat antar kategori. Jadi, mari ubah metode pengodean untuk fitur "RoofStyle" dan "CentralAir" menjadi one-hot encoding. Seperti sebelumnya, DataFrame train dan test dari kompetisi House Prices di Kaggle sudah tersedia di workspace Anda.
Ingat bahwa jika Anda berurusan dengan fitur biner (fitur kategorikal dengan hanya dua kategori) disarankan untuk hanya menerapkan label encoder.
Tujuan Anda adalah menentukan fitur mana yang tidak bersifat biner, dan menerapkan one-hot encoding hanya pada fitur tersebut.
Latihan ini adalah bagian dari kursus
Memenangi Kompetisi Kaggle dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Concatenate train and test together
houses = pd.concat([train, test])
# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)