Identifier un déséquilibre de classes
Vous vous concentrez sur une phase préliminaire essentielle du cycle de vie du Machine Learning : l’exploration des données (EDA).
L’EDA vous permet de mieux comprendre la nature du jeu de données heart_disease_df, y compris les relations entre variables, ainsi que les problèmes potentiels à traiter avant d’entraîner votre modèle. Comprendre la distribution des classes dans vos variables — par exemple, le sexe des patients — est un élément clé de l’EDA.
Un déséquilibre de classes, c’est‑à‑dire lorsqu’une classe contient nettement plus d’exemples qu’une autre, peut biaiser l’entraînement de votre modèle et le pousser à privilégier la classe majoritaire.
Cet exercice fait partie du cours
Machine Learning de bout en bout
Instructions
- Affichez la répartition des classes de la colonne
sex.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the sex value counts of the heart disease dataset
print(____[____].____)