Dummy trap

Een dummy trap is een situatie waarin verschillende dummyvariabelen dezelfde informatie overbrengen. In dit geval: als een werknemer bijvoorbeeld op de afdeling accounting werkt (dus de waarde in de kolom accounting is 1), dan weet je zeker dat hij/zij niet op een andere afdeling werkt (overal elders is de waarde 0). Zo kun je dus de afdeling ook afleiden door naar alle andere afdelingen te kijken.

Daarom geldt: wanneer er \(n\) dummies worden gemaakt (in jouw geval 10), zijn er maar \(n\) - 1 (in jouw geval 9) nodig, en de informatie van de \(n\)-de kolom zit er al in.

Daarom ga je de oude kolom voor afdeling verwijderen, één van de afdelingsdummies droppen om een dummy trap te voorkomen, en daarna de twee DataFrames samenvoegen.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in Python

Bekijk cursus

Oefeninstructies

.drop() de kolom accounting om de "dummy trap" te voorkomen.
.drop() de oude kolom department, want die heb je niet meer nodig.
Voeg de nieuwe DataFrame departments samen met de employee-gegevensset (dit is al voor je gedaan).

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)

# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)

# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)

Code bewerken en uitvoeren