Sentir le danger de l’imputation par la moyenne
L’une des méthodes d’imputation les plus courantes est l’imputation par la moyenne, qui consiste à remplacer les valeurs manquantes d’une variable par la moyenne des valeurs observées de cette même variable. Cependant, dans de nombreux cas, cette approche simple est un mauvais choix. Un coup d’œil rapide aux données peut parfois déjà vous alerter sur les dangers de l’imputation par la moyenne.
Dans ce chapitre, vous allez travailler avec un sous-échantillon des données du projet Tropical Atmosphere Ocean (tao). Ce jeu de données regroupe des mesures atmosphériques prises sur deux périodes distinctes et en cinq lieux différents. Les données sont fournies avec le package VIM.
Dans cet exercice, vous allez vous familiariser avec les données et réaliser une analyse simple qui mettra en évidence les conséquences possibles de l’imputation par la moyenne. Jetons un œil aux données tao !
Cet exercice fait partie du cours
Gérer les données manquantes avec des imputations en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print first 10 observations
___(tao, ___)