CommencerCommencer gratuitement

Astuces hot-deck I : imputer au sein de domaines

Une astuce utile lorsque l’imputation hot-deck rompt les relations entre variables consiste à imputer au sein de domaines. Concrètement, si la variable à imputer est corrélée à une autre variable catégorielle, on peut simplement exécuter hot-deck séparément pour chacune de ses catégories.

Par exemple, vous pouvez vous attendre à ce que la température de l’air dépende du temps, d’autant plus que les températures moyennes augmentent avec le réchauffement climatique. L’indicateur temporel disponible dans les données tao est une variable catégorielle, year. Commençons par vérifier si la température moyenne de l’air diffère entre les deux années étudiées, puis exécutons hot-deck au sein des domaines définis par l’année. Enfin, vous tracerez à nouveau le margin plot pour évaluer la qualité de l’imputation.

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Calculez la moyenne de air_temp pour chaque année, en appelant le résultat average_air_temp et en excluant les NA du calcul de la moyenne.
  • Imputez les valeurs manquantes de air_temp dans les données tao au sein des domaines year à l’aide de l’imputation hot-deck et affectez le résultat à tao_imp.
  • Créez un margin plot de air_temp en fonction de sea_surface_temp ; n’oubliez pas d’inclure air_temp_imp dans les variables transmises à la fonction de tracé.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Modifier et exécuter le code