Imputation par la moyenne de la température
L’imputation par la moyenne peut être risquée. Si la variable que vous imputez par la moyenne est corrélée à d’autres variables, cette corrélation peut être détruite par les valeurs imputées. Vous l’avez pressenti dans l’exercice précédent en analysant la variable air_temp.
Pour vérifier si ces craintes sont fondées, vous allez dans cet exercice effectuer une imputation par la moyenne sur air_temp, tout en créant un indicateur binaire indiquant où les valeurs sont imputées. Cela vous sera utile dans le prochain exercice, lorsque vous évaluerez les performances de votre imputation. Remplissons ces valeurs manquantes !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Instructions
- Dans le pipeline qui modifie
tao, créez une nouvelle variable appeléeair_temp_impqui vautTRUEsiair_tempest manquante etFALSEsinon. - Plus loin dans le même pipeline, remplacez
air_temppar sa propre moyenne lorsqu’elle est manquante, et laissez-la inchangée sinon, puis affectez le résultat àtao_imp.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
tao_imp <- tao %>%
# Create a binary indicator for missing values in air_temp
___(air_temp_imp = ifelse(___(___), ___, ___)) %>%
# Impute air_temp with its mean
___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))
# Print the first 10 rows of tao_imp
head(tao_imp, 10)