Dummy Trap
Ein Dummy Trap ist eine Situation, in der verschiedene Dummy-Variablen dieselbe Information transportieren. In diesem Fall gilt: Wenn eine Mitarbeiterin oder ein Mitarbeiter beispielsweise aus der Buchhaltung ist (d. h. der Wert in der Spalte accounting ist 1), dann weißt du sicher, dass die Person nicht aus einem anderen Bereich ist (überall sonst steht 0).
So könntest du die Abteilung allein durch den Blick auf alle anderen Abteilungen herausfinden.
Deshalb gilt: Wenn \(n\) Dummies erstellt werden (bei dir 10), reichen nur \(n\) - 1 (bei dir 9), denn die Information der \(n\)-ten Spalte ist bereits enthalten.
Daher entfernst du die alte Abteilungsspalte, lässt eine der Abteilungs-Dummies weg, um den Dummy Trap zu vermeiden, und verbindest anschließend die beiden DataFrames.
Diese Übung ist Teil des Kurses
<Kurs>HR Analytics: Mitarbeiterfluktuation mit Python vorhersagen</Kurs>Übungsanweisungen
.drop()die Spalteaccounting, um den "Dummy Trap" zu vermeiden..drop()die alte Spaltedepartment, da du sie nicht mehr brauchst.- Füge das neue DataFrame
departmentsmit dem Datensatzemployeezusammen (das ist bereits für dich erledigt).
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)