Aan de slagGa gratis aan de slag

Categorische variabelen omzetten

Omdat sklearn numerieke features als invoer voor modellen vereist, is het belangrijk om categorische variabelen naar numerieke om te zetten. De meest gebruikte techniek, "one-hot encoding", is eenvoudig maar verbruikt veel geheugen. Daarom ga je hashing gebruiken: een techniek die categorische input naar numerieke waarden mappt, voor elke categorische kolom.

De pandas-module is beschikbaar als pd in je werkruimte en de voorbeeld-DataFrame is geladen als df.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Selecteer de categorische kolommen door op gegevenstype te filteren.
  • Pas een hashfunctie toe op elk van de categorische kolommen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Code bewerken en uitvoeren