Impute missing data
Vous avez constaté que les colonnes "price" et "building_id" contiennent des valeurs manquantes dans le jeu de données Rental Listing Inquiries. Avant d’entraîner les modèles, vous devez donc imputer ces valeurs.
La variable numérique "price" sera imputée avec la moyenne des prix non manquants.
Imputer la variable catégorielle "building_id" avec la catégorie la plus fréquente est une mauvaise idée, car cela reviendrait à dire que tous les appartements avec un "building_id" manquant se trouvent dans l’immeuble le plus populaire. Il est préférable d’imputer avec une nouvelle catégorie.
Le DataFrame rental_listings contenant les données de la compétition est déjà chargé pour vous.
Cet exercice fait partie du cours
Gagner une compétition Kaggle en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import SimpleImputer
from sklearn.impute import SimpleImputer
# Create mean imputer
mean_imputer = ____(strategy='____')
# Price imputation
rental_listings[['price']] = mean_imputer.____(____[[____]])