Évaluer la qualité de l’imputation avec un margin plot
Dans le dernier exercice, vous avez imputé la moyenne de air_temp et ajouté une variable indicatrice pour signaler les valeurs imputées, appelée air_temp_imp. Il est temps de voir si cela fonctionne bien.
En examinant les données tao, vous avez peut-être remarqué qu’elles contiennent aussi une variable nommée sea_surface_temp, dont on peut raisonnablement s’attendre à ce qu’elle soit positivement corrélée à air_temp. Si c’est le cas, vous vous attendriez à ce que ces deux températures soient élevées ou basses en même temps. Imputer la moyenne de la température de l’air lorsque la température de la mer est haute ou basse casserait cette relation.
Pour le vérifier, dans cet exercice vous allez sélectionner les deux variables de température et la variable indicatrice, puis les utiliser pour tracer un margin plot. Évaluons l’imputation par la moyenne !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
___(delimiter = ___)