One-Hot-Codierung bestimmter Spalten
Ein lokaler Gebrauchtwagenhändler bittet um deine Hilfe bei der Vorhersage des Verkaufspreises seiner Fahrzeuge. Wenn du die One-Hot-Codierung für den gesamten Datensatz used_cars verwendest, hat der neue Datensatz über 1.200 Spalten. Du bist besorgt, dass dies zu Problemen beim Training deiner maschinellen Lernmodelle für die Preisvorhersage führen könnte. Du hast dich für einen einfacheren Ansatz entschieden und verwendest die One-Hot-Codierung nur für ein paar Spalten.
Diese Übung ist Teil des Kurses
Arbeiten mit kategorialen Daten in Python
Anleitung zur Übung
- Erstelle einen neuen Datensatz,
used_cars_simple, mit One-Hot-Codierung für diese Spalten:"manufacturer_name"und"transmission"(in dieser Reihenfolge). - Setze das Präfix aller neuen Spalten auf
"dummy", damit du leicht nach neu erstellten Spalten filtern kannst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
used_cars,
# Specify the columns from the instructions
____,
# Set the prefix
____
)
# Print the shape of the new dataset
print(used_cars_simple.shape)