Choisir le nombre de voisins
L’imputation par k-Nearest-Neighbors (ou kNN) remplit les valeurs manquantes d’une observation à partir des valeurs issues des k autres observations qui lui ressemblent le plus. Le nombre de ces observations similaires, appelées voisins, est un paramètre à choisir au préalable.
Comment choisir k ? Une approche consiste à essayer différentes valeurs et à observer leur impact sur les relations entre les données imputées et observées.
Essayons d’imputer humidity dans les données tao avec trois valeurs de k différentes et voyons comment les valeurs imputées s’alignent sur la relation entre humidity et sea_surface_temp.
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)
# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>%
select(sea_surface_temp, humidity, humidity_imp) %>%
___(delimiter = "imp", main = "k = 30")