Dummy trap

La dummy trap si verifica quando diverse variabili dummy trasmettono la stessa informazione. In questo caso, se un dipendente proviene, per esempio, dal reparto accounting (cioè il valore nella colonna accounting è 1), allora sai con certezza che non proviene da nessun altro reparto (i valori nelle altre colonne sono 0). Di conseguenza, potresti risalire al suo reparto guardando tutte le altre colonne dei reparti.

Per questo motivo, ogni volta che vengono create \(n\) variabili dummy (nel tuo caso, 10), ne bastano solo \(n\) - 1 (nel tuo caso, 9), perché l’informazione della \(n\)-esima colonna è già implicita.

Quindi, rimuoverai la vecchia colonna del reparto, eliminerai una delle dummy dei reparti per evitare la dummy trap e poi unirai i due DataFrame.

Questo esercizio fa parte del corso

HR Analytics: prevedere l'abbandono dei dipendenti in Python

Visualizza corso

Istruzioni dell'esercizio

.drop() la colonna accounting per evitare la "dummy trap".
.drop() la vecchia colonna department perché non ti serve più.
Unisci il nuovo DataFrame departments all’insieme di dati employee (questo è già stato fatto per te).

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)

# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)

# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)

Modifica ed esegui il codice