Categorische variabelen encoden - one-hot
Een van de kolommen in de volunteer-gegevensset, category_desc, bevat categoriebeschrijvingen voor de vermelde vrijwilligerskansen. Omdat dit een categorische variabele met meer dan twee categorieën is, moeten we one-hot encoding gebruiken om deze kolom numeriek te maken. Gebruik de pandas-functie pd.get_dummies() om dit te doen.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Roep
get_dummies()aan op de kolomvolunteer["category_desc"]om de gecodeerde kolommen te maken en wijs dit toe aancategory_enc. - Print de
.head()van de variabelecategory_encom de gecodeerde kolommen te bekijken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Transform the category_desc column
category_enc = pd.____(____)
# Take a look at the encoded columns
print(____)