Categorische variabelen omzetten
Omdat sklearn numerieke features als invoer voor modellen vereist, is het belangrijk om categorische variabelen naar numerieke om te zetten. De meest gebruikte techniek, "one-hot encoding", is eenvoudig maar verbruikt veel geheugen. Daarom ga je hashing gebruiken: een techniek die categorische input naar numerieke waarden mappt, voor elke categorische kolom.
De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Selecteer de categorische kolommen door op gegevenstype te filteren.
- Pas een hashfunctie toe op elk van de categorische kolommen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Get categorical columns
categorical_cols = df.____(
include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)
# Iterate over categorical columns and apply hash function
for col in ____:
df[col] = df[col].____(lambda x: ____(x))
# Print examples of new output
print(df.head(5))