LoslegenKostenlos loslegen

Kategorische Variablen umwandeln

Da sklearn für Modelle numerische Features als Eingaben benötigt, ist es wichtig, kategoriale Variablen in numerische zu kodieren. Die gängigste Technik, „One-Hot-Encoding“, ist unkompliziert, hat aber einen hohen Speicherbedarf. Daher verwendest du Hashing: Diese Technik ordnet kategoriale Eingaben numerischen Werten zu – und zwar für jede kategoriale Spalte.

Das pandas-Modul ist in deiner Arbeitsumgebung als pd verfügbar und der Beispiel-DataFrame ist als df geladen.

Diese Übung ist Teil des Kurses

CTR-Vorhersage mit Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Wähle die kategorialen Spalten aus, indem du nach dem Datentyp filterst.
  • Wende eine Hash-Funktion auf jede der kategorialen Spalten an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Code bearbeiten und ausführen