WHO: obesitas vs. levensverwachting

Je hebt een steekproef van WHO-gegevens (who_df) met obesitaspercentages en levensverwachting per land, jaar en geslacht. Je wilt de correlatie tussen obesitas en levensverwachting visueel verkennen.

De data is echter erg rommelig: vier variabelen zitten verstopt in de kolomnamen. Elke kolomnaam bestaat uit drie delen, gescheiden door underscores: eerst waarden voor year, daarna voor sex, en vervolgens waarden voor ofwel pct.obese of life.exp. Omdat het derde deel van de kolomnaam twee variabelen bevat, moet je de speciale waarde ".value" gebruiken in het names_to-argument.

Je gaat de data omvormen naar een nette (tidy) structuur en de spreidingsgrafiek maken.

Het pakket ggplot2 is alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Data herstructureren met tidyr

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

who_df %>% 
  # Put each variable in its own column
  ___(
    ___,
    names_to = ___,
    names_sep = "_",
    names_transform = ___(___ = ___)
  )

Code bewerken en uitvoeren