LoslegenKostenlos loslegen

Dummy Trap

Ein Dummy Trap ist eine Situation, in der verschiedene Dummy-Variablen dieselbe Information transportieren. In diesem Fall gilt: Wenn eine Mitarbeiterin oder ein Mitarbeiter beispielsweise aus der Buchhaltung ist (d. h. der Wert in der Spalte accounting ist 1), dann weißt du sicher, dass die Person nicht aus einem anderen Bereich ist (überall sonst steht 0). So könntest du die Abteilung allein durch den Blick auf alle anderen Abteilungen herausfinden.

Deshalb gilt: Wenn \(n\) Dummies erstellt werden (bei dir 10), reichen nur \(n\) - 1 (bei dir 9), denn die Information der \(n\)-ten Spalte ist bereits enthalten.

Daher entfernst du die alte Abteilungsspalte, lässt eine der Abteilungs-Dummies weg, um den Dummy Trap zu vermeiden, und verbindest anschließend die beiden DataFrames.

Diese Übung ist Teil des Kurses

HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen

Kurs anzeigen

Anleitung zur Übung

  • .drop() die Spalte accounting, um den "Dummy Trap" zu vermeiden.
  • .drop() die alte Spalte department, da du sie nicht mehr brauchst.
  • Füge das neue DataFrame departments mit dem Datensatz employee zusammen (das ist bereits für dich erledigt).

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)

# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)

# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)
Code bearbeiten und ausführen