Objectif du rééchantillonnage
Un hôpital développe un modèle de Machine Learning pour prédire si des patients développeront une maladie rare à partir de leurs dossiers médicaux.
Cependant, dans les données historiques de l’hôpital, seuls 5 % des patients ont été diagnostiqués avec la maladie, tandis que 95 % étaient en bonne santé. Lors du test d’un premier modèle, celui-ci a atteint 95 % de précision, mais il prédisait rarement la maladie ; en pratique, il prédisait surtout « en bonne santé » pour tout le monde.
Vous conseillez l’hôpital et recommandez d’appliquer un rééchantillonnage synthétique. Quel est votre principal argument pour appliquer un rééchantillonnage dans ce cas ?
Cet exercice fait partie du cours
Probabilité avancée : l’incertitude dans les données
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice