Categorische variabelen encoden
Er zijn in de UFO-gegevensset een paar kolommen die eerst gecodeerd moeten worden voordat je ze met scikit-learn kunt modelleren. Je voert die transformatie hier uit, met zowel binaire als one-hot-encodingmethoden.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Schrijf met
apply()een voorwaardelijkelambda-functie die1teruggeeft als de waarde"us"is, en anders 0. - Print het aantal
.unique()-waarden in de kolomtype. - Maak met
pd.get_dummies()een one-hot-encoded set van de kolomtype. - Gebruik tot slot
pd.concat()om detype_set-gecodeerde variabelen aan deufo-gegevensset te concateneren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Use pandas to encode us values as 1 and others as 0
ufo["country_enc"] = ufo["country"].____
# Print the number of unique type values
print(len(____.unique()))
# Create a one-hot encoded set of the type values
type_set = ____
# Concatenate this set back to the ufo DataFrame
ufo = pd.concat([____, ____], axis=1)