Aan de slagGa gratis aan de slag

Dummy trap

Een dummy trap is een situatie waarin verschillende dummyvariabelen dezelfde informatie overbrengen. In dit geval: als een werknemer bijvoorbeeld op de afdeling accounting werkt (dus de waarde in de kolom accounting is 1), dan weet je zeker dat hij/zij niet op een andere afdeling werkt (overal elders is de waarde 0). Zo kun je dus de afdeling ook afleiden door naar alle andere afdelingen te kijken.

Daarom geldt: wanneer er \(n\) dummies worden gemaakt (in jouw geval 10), zijn er maar \(n\) - 1 (in jouw geval 9) nodig, en de informatie van de \(n\)-de kolom zit er al in.

Daarom ga je de oude kolom voor afdeling verwijderen, één van de afdelingsdummies droppen om een dummy trap te voorkomen, en daarna de twee DataFrames samenvoegen.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in Python

Cursus bekijken

Oefeninstructies

  • .drop() de kolom accounting om de "dummy trap" te voorkomen.
  • .drop() de oude kolom department, want die heb je niet meer nodig.
  • Voeg de nieuwe DataFrame departments samen met de employee-gegevensset (dit is al voor je gedaan).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)

# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)

# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)
Code bewerken en uitvoeren