WHO: obesitas vs. levensverwachting
Je hebt een steekproef van WHO-gegevens (who_df) met obesitaspercentages en levensverwachting per land, jaar en geslacht. Je wilt de correlatie tussen obesitas en levensverwachting visueel verkennen.
De data is echter erg rommelig: vier variabelen zitten verstopt in de kolomnamen. Elke kolomnaam bestaat uit drie delen, gescheiden door underscores: eerst waarden voor year, daarna voor sex, en vervolgens waarden voor ofwel pct.obese of life.exp. Omdat het derde deel van de kolomnaam twee variabelen bevat, moet je de speciale waarde ".value" gebruiken in het names_to-argument.
Je gaat de data omvormen naar een nette (tidy) structuur en de spreidingsgrafiek maken.
Het pakket ggplot2 is alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Data herstructureren met tidyr
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
who_df %>%
# Put each variable in its own column
___(
___,
names_to = ___,
names_sep = "_",
names_transform = ___(___ = ___)
)