Kategorische Variablen umwandeln
Da sklearn für Modelle numerische Features als Eingaben benötigt, ist es wichtig, kategoriale Variablen in numerische zu kodieren. Die gängigste Technik, „One-Hot-Encoding“, ist unkompliziert, hat aber einen hohen Speicherbedarf. Daher verwendest du Hashing: Diese Technik ordnet kategoriale Eingaben numerischen Werten zu – und zwar für jede kategoriale Spalte.
Das pandas-Modul ist in deiner Arbeitsumgebung als pd verfügbar und der Beispiel-DataFrame ist als df geladen.
Diese Übung ist Teil des Kurses
CTR-Vorhersage mit Machine Learning in Python
Anleitung zur Übung
- Wähle die kategorialen Spalten aus, indem du nach dem Datentyp filterst.
- Wende eine Hash-Funktion auf jede der kategorialen Spalten an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Get categorical columns
categorical_cols = df.____(
include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)
# Iterate over categorical columns and apply hash function
for col in ____:
df[col] = df[col].____(lambda x: ____(x))
# Print examples of new output
print(df.head(5))