One-hot encoding pada kolom tertentu
Sebuah dealer mobil bekas lokal meminta bantuan Anda untuk memprediksi harga jual kendaraan mereka. Jika Anda menerapkan one-hot encoding pada seluruh himpunan data used_cars, himpunan data baru memiliki lebih dari 1.200 kolom. Anda khawatir hal ini dapat menimbulkan masalah saat melatih model Machine Learning untuk memprediksi harga. Anda memutuskan untuk mencoba pendekatan yang lebih sederhana dan hanya menggunakan one-hot encoding pada beberapa kolom saja.
Latihan ini merupakan bagian dari kursus
Bekerja dengan Data Kategorikal di Python
Instruksi latihan
- Buat himpunan data baru,
used_cars_simple, dengan one-hot encoding untuk kolom berikut:"manufacturer_name"dan"transmission"(dalam urutan ini). - Atur awalan semua kolom baru menjadi
"dummy", sehingga Anda dapat dengan mudah memfilter kolom yang baru dibuat.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)