One-hot encoden van specifieke kolommen
Een lokale tweedehandsautodealer wil jouw hulp bij het voorspellen van de verkoopprijs van hun voertuigen. Als je one-hot encoding toepast op de volledige used_cars-gegevensset, krijgt de nieuwe gegevensset meer dan 1.200 kolommen. Je bent bang dat dit tot problemen kan leiden bij het trainen van je Machine Learning-modellen om de prijs te voorspellen. Je besluit een eenvoudigere aanpak te proberen en alleen one-hot encoding toe te passen op een paar kolommen.
Deze oefening maakt deel uit van de cursus
Werken met categorische data in Python
Oefeninstructies
- Maak een nieuwe gegevensset,
used_cars_simple, met one-hot encoding voor deze kolommen:"manufacturer_name"en"transmission"(in deze volgorde). - Zet de prefix van alle nieuwe kolommen op
"dummy", zodat je makkelijk kunt filteren op nieuw aangemaakte kolommen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)