Dummy Trap
Ein Dummy Trap ist eine Situation, in der verschiedene Dummy-Variablen dieselbe Information transportieren. In diesem Fall gilt: Wenn eine Mitarbeiterin oder ein Mitarbeiter beispielsweise aus der Buchhaltung ist (d. h. der Wert in der Spalte accounting ist 1), dann weißt du sicher, dass die Person nicht aus einem anderen Bereich ist (überall sonst steht 0).
So könntest du die Abteilung allein durch den Blick auf alle anderen Abteilungen herausfinden.
Deshalb gilt: Wenn \(n\) Dummies erstellt werden (bei dir 10), reichen nur \(n\) - 1 (bei dir 9), denn die Information der \(n\)-ten Spalte ist bereits enthalten.
Daher entfernst du die alte Abteilungsspalte, lässt eine der Abteilungs-Dummies weg, um den Dummy Trap zu vermeiden, und verbindest anschließend die beiden DataFrames.
Diese Übung ist Teil des Kurses
HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen
Anleitung zur Übung
.drop()die Spalteaccounting, um den "Dummy Trap" zu vermeiden..drop()die alte Spaltedepartment, da du sie nicht mehr brauchst.- Füge das neue DataFrame
departmentsmit dem Datensatzemployeezusammen (das ist bereits für dich erledigt).
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)