Astuces kNN I : pondérer les donneurs
Une variante souvent utilisée de l’imputation kNN repose sur l’agrégation pondérée par la distance. Concrètement, lorsque nous agrégeons les valeurs des voisins pour remplacer une valeur manquante, nous utilisons la moyenne pondérée, avec comme poids l’inverse des distances de chaque voisin. Ainsi, les voisins les plus proches ont plus d’influence sur la valeur imputée.
Dans cet exercice, vous allez appliquer l’agrégation pondérée par la distance lors de l’imputation des données tao. Il suffit pour cela de passer deux arguments supplémentaires à la fonction kNN(). Essayons !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Chargez le package
VIM. - Imputez
humidityavec kNN en utilisant une moyenne pondérée par la distance pour agréger les voisins ; vous devrez spécifier les argumentsnumFunetweightDist. - Le graphique marginal pour visualiser les résultats a déjà été codé pour vous.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the VIM package
___(___)
# Impute humidity with kNN using distance-weighted mean
tao_imp <- ___(tao,
k = 5,
variable = "humidity",
___ = ___,
___ = ___)
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
marginplot(delimiter = "imp")