Kategorische Spalten kodieren III: DictVectorizer

Alles klar, noch ein letzter Trick, bevor du in Pipelines eintauchst. Den zweistufigen Prozess, den du gerade gesehen hast – LabelEncoder gefolgt von OneHotEncoder – kannst du mit einem DictVectorizer vereinfachen.

Wenn du einen DictVectorizer auf ein DataFrame anwendest, das zuvor in ein Dictionary umgewandelt wurde, erhältst du Label-Encoding und One-Hot-Encoding in einem Schritt.

Deine Aufgabe ist es, diese Strategie in dieser Übung umzusetzen!

Diese Übung ist Teil des Kurses

Extreme Gradient Boosting mit XGBoost

Kurs anzeigen

Anleitung zur Übung

Importiere DictVectorizer aus sklearn.feature_extraction.
Wandle df mit der Methode .to_dict() und dem Argument "records" in ein Dictionary namens df_dict um.
Instanziiere ein DictVectorizer-Objekt namens dv mit dem Schlüsselwortargument sparse=False.
Wende den DictVectorizer mit seiner Methode .fit_transform() auf df_dict an.
Klicke auf "Antwort senden", um die ersten fünf resultierenden Zeilen und das Vokabular auszugeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import DictVectorizer
____

# Convert df into a dictionary: df_dict
df_dict = ____

# Create the DictVectorizer object: dv
dv = ____

# Apply dv on df: df_encoded
df_encoded = ____

# Print the resulting first five rows
print(df_encoded[:5,:])

# Print the vocabulary
print(dv.vocabulary_)

Code bearbeiten und ausführen