CommencerCommencer gratuitement

Nettoyer votre jeu de données

Les jeux de données réels, comme celui sur les maladies cardiaques, sont souvent désordonnés et contiennent des valeurs dupliquées ou manquantes. Dans cet exercice, vous allez appliquer les compétences vues dans ce chapitre pour nettoyer ce jeu de données. Le jeu de données a déjà été chargé pour vous. Votre mission consiste à identifier et à effectuer des opérations de nettoyage générales à partir des résultats de l’EDA : supprimer les colonnes vides, supprimer les lignes en double et effectuer une imputation sur la colonne restecg, qui correspond à une mesure d’électrocardiogramme. Pandas a été importé sous le nom pd, et le jeu de données est stocké dans un DataFrame pandas appelé heart_disease_df.

Cet exercice fait partie du cours

Machine Learning de bout en bout

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Drop empty columns
heart_disease_column_dropped = heart_disease_df.____(____, ____)
Modifier et exécuter le code