Le compromis du rééchantillonnage
Une grande entreprise tech souhaite prédire l’attrition des employés afin d’améliorer la rétention. Mais seulement 12 % des employés sont partis, donc le modèle est principalement entraîné sur des cas de « reste » (88 %), ce qui rend difficile l’identification des personnes à risque de départ.
Pour corriger ce déséquilibre, les analystes RH utilisent un rééchantillonnage synthétique pour créer davantage de cas « départ » et équilibrer les données.
Une exigence clé : le modèle doit éviter de mal classer des employés fidèles comme « à haut risque de départ », afin d’éviter des efforts de rétention inutiles.
Le modèle est évalué selon :
- Précision sur l’entraînement : prédictions correctes sur les données d’entraînement.
- Précision sur le test : prédictions correctes sur de nouvelles données.
- Précision : parmi les départs prédits, combien sont réellement partis.
| Metric | Model A (without resampling) | Model B (with resampling) |
|---|---|---|
| Training accuracy | 85% | 95% |
| Test Accuracy | 82% | 85% |
| Precision | 80% | 68% |
Cet exercice fait partie du cours
Probabilité avancée : l’incertitude dans les données
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice