One-hot encoding en dummyvariabelen
Om categorische variabelen in een Machine Learning-model te gebruiken, moet je ze eerst kwantitatief representeren. De twee meestgebruikte aanpakken zijn one-hot encoding en het gebruik van dummyvariabelen. In deze oefening maak je beide vormen van encodering en vergelijk je de resulterende kolomsets. We gaan verder met dezelfde DataFrame uit de vorige les, geladen als so_survey_df, en focussen op de kolom Country.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert the Country column to a one hot encoded Data Frame
one_hot_encoded = ____(____, ____=['Country'], prefix='OH')
# Print the columns names
print(one_hot_encoded.columns)