LoslegenKostenlos loslegen

One-Hot-Codierung bestimmter Spalten

Ein lokaler Gebrauchtwagenhändler bittet um deine Hilfe bei der Vorhersage des Verkaufspreises seiner Fahrzeuge. Wenn du die One-Hot-Codierung für den gesamten Datensatz used_cars verwendest, hat der neue Datensatz über 1.200 Spalten. Du bist besorgt, dass dies zu Problemen beim Training deiner maschinellen Lernmodelle für die Preisvorhersage führen könnte. Du hast dich für einen einfacheren Ansatz entschieden und verwendest die One-Hot-Codierung nur für ein paar Spalten.

Diese Übung ist Teil des Kurses

Arbeiten mit kategorialen Daten in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen neuen Datensatz, used_cars_simple, mit One-Hot-Codierung für diese Spalten: "manufacturer_name" und "transmission" (in dieser Reihenfolge).
  • Setze das Präfix aller neuen Spalten auf "dummy", damit du leicht nach neu erstellten Spalten filtern kannst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
  used_cars,
  # Specify the columns from the instructions
  ____,
  # Set the prefix
  ____
)

# Print the shape of the new dataset
print(used_cars_simple.shape)
Code bearbeiten und ausführen