MulaiMulai sekarang secara gratis

One-Hot encoding

Masalah dengan label encoding adalah asumsi implisit bahwa ada ketergantungan peringkat antar kategori. Jadi, mari ubah metode pengodean untuk fitur "RoofStyle" dan "CentralAir" menjadi one-hot encoding. Seperti sebelumnya, DataFrame train dan test dari kompetisi House Prices di Kaggle sudah tersedia di workspace Anda.

Ingat bahwa jika Anda berurusan dengan fitur biner (fitur kategorikal dengan hanya dua kategori) disarankan untuk hanya menerapkan label encoder.

Tujuan Anda adalah menentukan fitur mana yang tidak bersifat biner, dan menerapkan one-hot encoding hanya pada fitur tersebut.

Latihan ini adalah bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Concatenate train and test together
houses = pd.concat([train, test])

# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)
Edit dan Jalankan Kode