CommencerCommencez gratuitement

EDA sur NHANES

Examinons notre nouveau jeu de données avec une approche d’EDA. Comme dans le chapitre précédent, il est utile d’observer à la fois des mesures de synthèse numériques et des visualisations. Elles aident à comprendre les données et permettent souvent d’identifier des étapes de nettoyage que vous auriez pu manquer. Le jeu de données nhanes_combined a été préchargé pour vous.

Supposons que nous ayons accès à des patient·e·s NHANES et que nous voulions étudier l’effet, sur le poids, du fait qu’un médecin leur ait conseillé de réduire les calories/les lipides dans leur alimentation. C’est notre traitement ; faisons comme si, au lieu que ce soit une question posée au patient, nous avions aléatoirement demandé à des médecins de conseiller certains patients sur leur nutrition. Toutefois, nous soupçonnons que le poids pourrait différer selon le sexe du patient : un facteur de blocage !

Cet exercice fait partie du cours

<cours>Plan d’expériences en R</cours>
Voir le cours

Instructions de l’exercice

  • Complétez et exécutez le code dplyr pour calculer le poids moyen (bmxwt) en kg selon notre traitement (mcq365d). Y a-t-il quelque chose d’intéressant à propos des patients avec NA pour le traitement ?
  • Complétez le code ggplot2 pour afficher un boxplot de l’IQR des poids des patients selon la variable de traitement.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Fill in the dplyr code
___ %>% 
  group_by(___) %>% 
  summarize(mean = mean(___, na.rm = TRUE))

# Fill in the ggplot2 code
___ %>% 
  ggplot(aes(as.factor(___), ___)) +
  geom_boxplot() +
  labs(x = "Treatment",
       y = "Weight")
Modifier et exécuter le code