Dummy trap
La dummy trap si verifica quando diverse variabili dummy trasmettono la stessa informazione. In questo caso, se un dipendente proviene, per esempio, dal reparto accounting (cioè il valore nella colonna accounting è 1), allora sai con certezza che non proviene da nessun altro reparto (i valori nelle altre colonne sono 0).
Di conseguenza, potresti risalire al suo reparto guardando tutte le altre colonne dei reparti.
Per questo motivo, ogni volta che vengono create \(n\) variabili dummy (nel tuo caso, 10), ne bastano solo \(n\) - 1 (nel tuo caso, 9), perché l’informazione della \(n\)-esima colonna è già implicita.
Quindi, rimuoverai la vecchia colonna del reparto, eliminerai una delle dummy dei reparti per evitare la dummy trap e poi unirai i due DataFrame.
Questo esercizio fa parte del corso
HR Analytics: prevedere l'abbandono dei dipendenti in Python
Istruzioni dell'esercizio
.drop()la colonnaaccountingper evitare la "dummy trap"..drop()la vecchia colonnadepartmentperché non ti serve più.- Unisci il nuovo DataFrame
departmentsall’insieme di datiemployee(questo è già stato fatto per te).
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)