Imputation simple

Comme vous l’avez vu dans l’exercice précédent, supprimer des données peut réduire votre jeu de données de façon excessive. En entretien, cela peut conduire à des résultats biaisés pour votre modèle de Machine Learning.

Une manière plus souple de gérer les valeurs manquantes consiste à les imputer. Il existe plusieurs approches en Python, mais dans cet exercice vous allez utiliser la fonction SimpleImputer() du module sklearn.impute sur loan_data.

Vous utiliserez ensuite pandas et numpy pour convertir le jeu de données imputé en DataFrame.

Notez que deux étapes sont maintenant ajoutées au pipeline, Instantiate et Fit : Machine learning pipeline

Cet exercice fait partie du cours

<cours>S’entraîner aux questions d’entretien en Machine Learning avec Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import imputer module
from sklearn.impute import SimpleImputer

# Subset numeric features: numeric_cols
numeric_cols = ____.____(include=[____.____])

Modifier et exécuter le code