One-hot encoding pada kolom tertentu
Sebuah dealer mobil bekas lokal meminta bantuan Anda untuk memprediksi harga jual kendaraan mereka. Jika Anda menerapkan one-hot encoding pada seluruh himpunan data used_cars, himpunan data baru memiliki lebih dari 1.200 kolom. Anda khawatir hal ini dapat menimbulkan masalah saat melatih model Machine Learning untuk memprediksi harga. Anda memutuskan untuk mencoba pendekatan yang lebih sederhana dan hanya menggunakan one-hot encoding pada beberapa kolom saja.
Latihan ini adalah bagian dari kursus
Bekerja dengan Data Kategorikal di Python
Petunjuk latihan
- Buat himpunan data baru,
used_cars_simple, dengan one-hot encoding untuk kolom berikut:"manufacturer_name"dan"transmission"(dalam urutan ini). - Atur awalan semua kolom baru menjadi
"dummy", sehingga Anda dapat dengan mudah memfilter kolom yang baru dibuat.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)