Mulai sekarangMulai gratis

One-Hot encoding

Masalah dengan label encoding adalah asumsi implisit bahwa ada ketergantungan peringkat antar kategori. Jadi, mari ubah metode pengodean untuk fitur "RoofStyle" dan "CentralAir" menjadi one-hot encoding. Seperti sebelumnya, DataFrame train dan test dari kompetisi House Prices di Kaggle sudah tersedia di workspace Anda.

Ingat bahwa jika Anda berurusan dengan fitur biner (fitur kategorikal dengan hanya dua kategori) disarankan untuk hanya menerapkan label encoder.

Tujuan Anda adalah menentukan fitur mana yang tidak bersifat biner, dan menerapkan one-hot encoding hanya pada fitur tersebut.

Latihan ini merupakan bagian dari kursus

Memenangi Kompetisi Kaggle dengan Python

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Concatenate train and test together
houses = pd.concat([train, test])

# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)
Edit dan Jalankan Kode