Astuces hot-deck II : trier selon des variables corrélées
Une autre astuce qui peut améliorer les performances de l’imputation hot-deck consiste à trier les données selon des variables corrélées à celle que vous souhaitez imputer.
Par exemple, dans tous les graphiques marginaux que vous avez tracés récemment, vous avez vu que la température de l’air est fortement corrélée à la température de surface de la mer, ce qui est très logique. Vous pouvez exploiter cette information pour améliorer votre imputation hot-deck. Si vous commencez par ordonner les données selon sea_surface_temp, alors chaque valeur imputée de air_temp proviendra d’un donneur avec une sea_surface_temp similaire. Voyons comment cela fonctionne !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Imputez par hot-deck les valeurs manquantes de
air_tempdans les donnéestao, en ordonnant parsea_surface_temp, et affectez le résultat àtao_imp. - Créez un graphique marginal de
air_tempen fonction desea_surface_temp.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(air_temp, sea_surface_temp, air_temp_imp) %>%
___(___ = ___)