CommencerCommencer gratuitement

Imputation par la moyenne de la température

L’imputation par la moyenne peut être risquée. Si la variable que vous imputez par la moyenne est corrélée à d’autres variables, cette corrélation peut être détruite par les valeurs imputées. Vous l’avez pressenti dans l’exercice précédent en analysant la variable air_temp.

Pour vérifier si ces craintes sont fondées, vous allez dans cet exercice effectuer une imputation par la moyenne sur air_temp, tout en créant un indicateur binaire indiquant où les valeurs sont imputées. Cela vous sera utile dans le prochain exercice, lorsque vous évaluerez les performances de votre imputation. Remplissons ces valeurs manquantes !

Cet exercice fait partie du cours

Gérer les données manquantes avec des imputations en R

Afficher le cours

Instructions

  • Dans le pipeline qui modifie tao, créez une nouvelle variable appelée air_temp_imp qui vaut TRUE si air_temp est manquante et FALSE sinon.
  • Plus loin dans le même pipeline, remplacez air_temp par sa propre moyenne lorsqu’elle est manquante, et laissez-la inchangée sinon, puis affectez le résultat à tao_imp.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

tao_imp <- tao %>% 
  # Create a binary indicator for missing values in air_temp
  ___(air_temp_imp = ifelse(___(___), ___, ___)) %>% 
  # Impute air_temp with its mean
  ___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))

# Print the first 10 rows of tao_imp
head(tao_imp, 10)
Modifier et exécuter le code