Aan de slagBegin gratis

One-hot encoding en dummyvariabelen

Om categorische variabelen in een Machine Learning-model te gebruiken, moet je ze eerst kwantitatief representeren. De twee meestgebruikte aanpakken zijn one-hot encoding en het gebruik van dummyvariabelen. In deze oefening maak je beide vormen van encodering en vergelijk je de resulterende kolomsets. We gaan verder met dezelfde DataFrame uit de vorige les, geladen als so_survey_df, en focussen op de kolom Country.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Convert the Country column to a one hot encoded Data Frame
one_hot_encoded = ____(____, ____=['Country'], prefix='OH')

# Print the columns names
print(one_hot_encoded.columns)
Code bewerken en uitvoeren