CommencerCommencer gratuitement

Choisir le nombre de voisins

L’imputation par k-Nearest-Neighbors (ou kNN) remplit les valeurs manquantes d’une observation à partir des valeurs issues des k autres observations qui lui ressemblent le plus. Le nombre de ces observations similaires, appelées voisins, est un paramètre à choisir au préalable.

Comment choisir k ? Une approche consiste à essayer différentes valeurs et à observer leur impact sur les relations entre les données imputées et observées.

Essayons d’imputer humidity dans les données tao avec trois valeurs de k différentes et voyons comment les valeurs imputées s’alignent sur la relation entre humidity et sea_surface_temp.

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Modifier et exécuter le code