CommencerCommencer gratuitement

Astuces hot-deck II : trier selon des variables corrélées

Une autre astuce qui peut améliorer les performances de l’imputation hot-deck consiste à trier les données selon des variables corrélées à celle que vous souhaitez imputer.

Par exemple, dans tous les graphiques marginaux que vous avez tracés récemment, vous avez vu que la température de l’air est fortement corrélée à la température de surface de la mer, ce qui est très logique. Vous pouvez exploiter cette information pour améliorer votre imputation hot-deck. Si vous commencez par ordonner les données selon sea_surface_temp, alors chaque valeur imputée de air_temp proviendra d’un donneur avec une sea_surface_temp similaire. Voyons comment cela fonctionne !

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Imputez par hot-deck les valeurs manquantes de air_temp dans les données tao, en ordonnant par sea_surface_temp, et affectez le résultat à tao_imp.
  • Créez un graphique marginal de air_temp en fonction de sea_surface_temp.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(air_temp, sea_surface_temp, air_temp_imp) %>% 
	___(___ = ___)
Modifier et exécuter le code