CommencerCommencer gratuitement

Piège des variables fictives

Le "piège des variables fictives" survient lorsque différentes variables indicatrices véhiculent la même information. Ici, si un employé appartient, par exemple, au service comptabilité (c’est‑à‑dire que la valeur dans la colonne accounting est 1), vous savez avec certitude qu’il n’appartient à aucun autre service (les autres valeurs sont 0). Vous pourriez donc déduire son service en regardant toutes les autres colonnes de service.

Pour cette raison, lorsque \(n\) variables fictives sont créées (dans votre cas, 10), seules \(n\) − 1 (ici, 9) suffisent, et l’information de la $n$‑ième colonne est déjà incluse.

Vous allez donc supprimer l’ancienne colonne du service, retirer l’une des variables fictives de service pour éviter le piège, puis fusionner les deux DataFrames.

Cet exercice fait partie du cours

Analytique RH : prédire l’attrition des employés en Python

Afficher le cours

Instructions

  • .drop() la colonne accounting pour éviter le « piège des variables fictives ».
  • .drop() l’ancienne colonne department dont vous n’avez plus besoin.
  • Joignez le nouveau DataFrame departments au jeu de données employee (c’est déjà fait pour vous).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)

# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)

# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)
Modifier et exécuter le code