Dummy trap
Een dummy trap is een situatie waarin verschillende dummyvariabelen dezelfde informatie overbrengen. In dit geval: als een werknemer bijvoorbeeld op de afdeling accounting werkt (dus de waarde in de kolom accounting is 1), dan weet je zeker dat hij/zij niet op een andere afdeling werkt (overal elders is de waarde 0).
Zo kun je dus de afdeling ook afleiden door naar alle andere afdelingen te kijken.
Daarom geldt: wanneer er \(n\) dummies worden gemaakt (in jouw geval 10), zijn er maar \(n\) - 1 (in jouw geval 9) nodig, en de informatie van de \(n\)-de kolom zit er al in.
Daarom ga je de oude kolom voor afdeling verwijderen, één van de afdelingsdummies droppen om een dummy trap te voorkomen, en daarna de twee DataFrames samenvoegen.
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in Python
Oefeninstructies
.drop()de kolomaccountingom de "dummy trap" te voorkomen..drop()de oude kolomdepartment, want die heb je niet meer nodig.- Voeg de nieuwe DataFrame
departmentssamen met deemployee-gegevensset (dit is al voor je gedaan).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)