CommencerCommencer gratuitement

Le compromis du rééchantillonnage

Une grande entreprise tech souhaite prédire l’attrition des employés afin d’améliorer la rétention. Mais seulement 12 % des employés sont partis, donc le modèle est principalement entraîné sur des cas de « reste » (88 %), ce qui rend difficile l’identification des personnes à risque de départ.

Pour corriger ce déséquilibre, les analystes RH utilisent un rééchantillonnage synthétique pour créer davantage de cas « départ » et équilibrer les données.

Une exigence clé : le modèle doit éviter de mal classer des employés fidèles comme « à haut risque de départ », afin d’éviter des efforts de rétention inutiles.

Le modèle est évalué selon :

  • Précision sur l’entraînement : prédictions correctes sur les données d’entraînement.
  • Précision sur le test : prédictions correctes sur de nouvelles données.
  • Précision : parmi les départs prédits, combien sont réellement partis.
Metric Model A (without resampling) Model B (with resampling)
Training accuracy 85% 95%
Test Accuracy 82% 85%
Precision 80% 68%

Cet exercice fait partie du cours

Probabilité avancée : l’incertitude dans les données

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice