Astuces hot-deck I : imputer au sein de domaines
Une astuce utile lorsque l’imputation hot-deck rompt les relations entre variables consiste à imputer au sein de domaines. Concrètement, si la variable à imputer est corrélée à une autre variable catégorielle, on peut simplement exécuter hot-deck séparément pour chacune de ses catégories.
Par exemple, vous pouvez vous attendre à ce que la température de l’air dépende du temps, d’autant plus que les températures moyennes augmentent avec le réchauffement climatique. L’indicateur temporel disponible dans les données tao est une variable catégorielle, year. Commençons par vérifier si la température moyenne de l’air diffère entre les deux années étudiées, puis exécutons hot-deck au sein des domaines définis par l’année. Enfin, vous tracerez à nouveau le margin plot pour évaluer la qualité de l’imputation.
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Calculez la moyenne de
air_temppour chaque année, en appelant le résultataverage_air_tempet en excluant lesNAdu calcul de la moyenne. - Imputez les valeurs manquantes de
air_tempdans les donnéestaoau sein des domainesyearà l’aide de l’imputation hot-deck et affectez le résultat àtao_imp. - Créez un margin plot de
air_tempen fonction desea_surface_temp; n’oubliez pas d’inclureair_temp_impdans les variables transmises à la fonction de tracé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)