Imputation par KNN

Les jeux de données contiennent souvent des variables corrélées. Il est donc important d’en tenir compte pour l’imputation des valeurs manquantes. Les modèles de Machine Learning utilisent les variables du DataFrame pour trouver des corrélations et des motifs, puis prédire une variable ciblée.

L’un des modèles les plus simples et efficaces est le K Nearest Neighbors. Il recherche les « K » points les plus similaires aux points existants pour imputer les valeurs manquantes.

Dans cet exercice, le DataFrame diabetes a déjà été chargé pour vous. Utilisez le package fancyimpute pour imputer les valeurs manquantes du DataFrame diabetes.

Cet exercice fait partie du cours

<cours>Gérer les données manquantes en Python</cours>

Voir le cours

Instructions de l’exercice

Importez KNN depuis fancyimpute.
Copiez diabetes dans diabetes_knn_imputed.
Créez un objet KNN() et assignez-le à knn_imputer.
Imputez le DataFrame diabetes_knn_imputed.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import KNN from fancyimpute
___

# Copy diabetes to diabetes_knn_imputed
diabetes_knn_imputed = ___

# Initialize KNN
knn_imputer = ___

# Impute using fit_tranform on diabetes_knn_imputed
diabetes_knn_imputed.iloc[:, :] = ___

Modifier et exécuter le code