EDA sur NHANES
Examinons notre nouveau jeu de données avec une approche d’EDA. Comme dans le chapitre précédent, il est utile d’observer à la fois des mesures de synthèse numériques et des visualisations. Elles aident à comprendre les données et permettent souvent d’identifier des étapes de nettoyage que vous auriez pu manquer. Le jeu de données nhanes_combined a été préchargé pour vous.
Supposons que nous ayons accès à des patient·e·s NHANES et que nous voulions étudier l’effet, sur le poids, du fait qu’un médecin leur ait conseillé de réduire les calories/les lipides dans leur alimentation. C’est notre traitement ; faisons comme si, au lieu que ce soit une question posée au patient, nous avions aléatoirement demandé à des médecins de conseiller certains patients sur leur nutrition. Toutefois, nous soupçonnons que le poids pourrait différer selon le sexe du patient : un facteur de blocage !
Cet exercice fait partie du cours
Plan d’expériences en R
Instructions
- Complétez et exécutez le code
dplyrpour calculer le poids moyen (bmxwt) en kg selon notre traitement (mcq365d). Y a-t-il quelque chose d’intéressant à propos des patients avecNApour le traitement ? - Complétez le code
ggplot2pour afficher un boxplot de l’IQR des poids des patients selon la variable de traitement.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Fill in the dplyr code
___ %>%
group_by(___) %>%
summarize(mean = mean(___, na.rm = TRUE))
# Fill in the ggplot2 code
___ %>%
ggplot(aes(as.factor(___), ___)) +
geom_boxplot() +
labs(x = "Treatment",
y = "Weight")