CommencerCommencer gratuitement

Nettoyage des données NHANES

Lors du nettoyage des données, nous avons découvert qu’aucune personne de moins de 16 ans n’avait reçu le traitement. Rappelez-vous que nous supposons que la variable indiquant si un médecin leur a déjà conseillé de réduire les graisses ou les calories dans leur alimentation correspond à un accompagnement nutritionnel ciblé, notre traitement. Conservons uniquement les patients de plus de 16 ans dans le jeu de données.

Vous avez peut-être également remarqué que les paramètres par défaut de ggplot2 suppriment toute observation dont la variable dépendante est manquante, ici le poids corporel. Une option pour gérer les poids manquants, l’imputation, peut être mise en œuvre avec le package simputation. L’imputation est une technique pour traiter les valeurs manquantes en les remplaçant soit par une statistique de synthèse, comme la moyenne ou la médiane, soit en utilisant un modèle pour prédire une valeur de remplacement.

Nous allons utiliser impute_median(), qui prend en arguments un jeu de données et la variable à imputer ou une formule indiquant le regroupement pour l’imputation. Par exemple, impute_median(ToothGrowth, len ~ dose) remplira toute valeur manquante de la variable len par la valeur médiane de len selon dose. Ainsi, si un cobaye ayant reçu une dose de 2,0 présente une valeur manquante pour la variable len, elle sera remplacée par la médiane de len pour les cobayes avec une dose de 2,0.

Cet exercice fait partie du cours

Plan d’expériences en R

Afficher le cours

Instructions

  • Créez nhanes_filter en utilisant filter() pour conserver toute personne de plus de 16 ans dans le jeu de données, sans inclure celles qui ont 16 ans. L’âge est stocké dans la variable ridageyr.
  • Chargez simputation. Utilisez impute_median() pour remplir les observations manquantes de bmxwt dans nhanes_filter, en regroupant par riagendr.
  • Recodez la variable nhanes_final$mcq365d en remplaçant toute observation ayant la valeur 9 par 2. Vérifiez que le recodage a fonctionné avec count().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Filter to keep only those 16+
nhanes_filter <- ___ %>% filter(___)

# Load simputation & impute bmxwt by riagendr
___
nhanes_final <- impute_median(___, ___)

# Recode mcq365d with recode() & examine with count()
nhanes_final$mcq365d <- recode(nhanes_final$mcq365d, 
                               `1` = 1,
                               `2` = 2,
                               `9` = ___)
___ %>% ___
Modifier et exécuter le code