NHANES EDA
Laten we onze nieuw samengestelde gegevensset verkennen met het oog op EDA. Net als in het vorige hoofdstuk is het verstandig om zowel numerieke samenvattingen als visualisaties te bekijken. Die helpen je de data te begrijpen en zijn een goede manier om opschoningsstappen te vinden die je misschien hebt gemist. De gegevensset nhanes_combined is alvast voor je ingeladen.
Stel dat we toegang hebben tot NHANES-patiënten en een studie willen doen naar het effect op gewicht van het door een arts krijgen van het advies om minder calorieën/vet te eten. Dit is onze behandeling; we doen alsof artsen willekeurig sommige patiënten voedingsadvies gaven, in plaats van dat dit een vraag aan de patiënt was. We vermoeden echter dat er een verschil in gewicht kan zijn op basis van het geslacht van de patiënt — een blokkeringsfactor!
Deze oefening maakt deel uit van de cursus
Experimenteel ontwerp in R
Oefeninstructies
- Vul de
dplyr-code aan en voer die uit om het gemiddelde gewicht (bmxwt) in kg te vinden per behandeling (mcq365d). Valt er iets op aan de patiënten met behandelingNA? - Vul de
ggplot2-code aan om een boxplot te maken van de IQR van het patiëntgewicht per behandelingsvariabele.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fill in the dplyr code
___ %>%
group_by(___) %>%
summarize(mean = mean(___, na.rm = TRUE))
# Fill in the ggplot2 code
___ %>%
ggplot(aes(as.factor(___), ___)) +
geom_boxplot() +
labs(x = "Treatment",
y = "Weight")