CommencerCommencer gratuitement

EDA sur NHANES

Examinons notre nouveau jeu de données avec une approche d’EDA. Comme dans le chapitre précédent, il est utile d’observer à la fois des mesures de synthèse numériques et des visualisations. Elles aident à comprendre les données et permettent souvent d’identifier des étapes de nettoyage que vous auriez pu manquer. Le jeu de données nhanes_combined a été préchargé pour vous.

Supposons que nous ayons accès à des patient·e·s NHANES et que nous voulions étudier l’effet, sur le poids, du fait qu’un médecin leur ait conseillé de réduire les calories/les lipides dans leur alimentation. C’est notre traitement ; faisons comme si, au lieu que ce soit une question posée au patient, nous avions aléatoirement demandé à des médecins de conseiller certains patients sur leur nutrition. Toutefois, nous soupçonnons que le poids pourrait différer selon le sexe du patient : un facteur de blocage !

Cet exercice fait partie du cours

Plan d’expériences en R

Afficher le cours

Instructions

  • Complétez et exécutez le code dplyr pour calculer le poids moyen (bmxwt) en kg selon notre traitement (mcq365d). Y a-t-il quelque chose d’intéressant à propos des patients avec NA pour le traitement ?
  • Complétez le code ggplot2 pour afficher un boxplot de l’IQR des poids des patients selon la variable de traitement.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fill in the dplyr code
___ %>% 
  group_by(___) %>% 
  summarize(mean = mean(___, na.rm = TRUE))

# Fill in the ggplot2 code
___ %>% 
  ggplot(aes(as.factor(___), ___)) +
  geom_boxplot() +
  labs(x = "Treatment",
       y = "Weight")
Modifier et exécuter le code