Imputation par KNN
Les jeux de données contiennent souvent des variables corrélées. Il est donc important d’en tenir compte pour l’imputation des valeurs manquantes. Les modèles de Machine Learning utilisent les variables du DataFrame pour trouver des corrélations et des motifs, puis prédire une variable ciblée.
L’un des modèles les plus simples et efficaces est le K Nearest Neighbors. Il recherche les « K » points les plus similaires aux points existants pour imputer les valeurs manquantes.
Dans cet exercice, le DataFrame diabetes a déjà été chargé pour vous. Utilisez le package fancyimpute pour imputer les valeurs manquantes du DataFrame diabetes.
Cet exercice fait partie du cours
Gérer les données manquantes en Python
Instructions
- Importez
KNNdepuisfancyimpute. - Copiez
diabetesdansdiabetes_knn_imputed. - Créez un objet
KNN()et assignez-le àknn_imputer. - Imputez le DataFrame
diabetes_knn_imputed.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import KNN from fancyimpute
___
# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___
# Initialize KNN
knn_imputer = ___
# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___