Uitschieters identificeren
Bekijk de verdeling van de levensverwachtingen van de landen in Azië, zoals hier getoond. De boxplot markeert één duidelijke uitschieter: een land met een opvallend lage levensverwachting. Heb je een idee welk land dat is? Test je gok in de console met min() of filter(), en ga daarna verder met het maken van een plot waarbij dat land is weggelaten.
Deze oefening maakt deel uit van de cursus
Exploratory Data Analysis in R
Oefeninstructies
gap2007 is nog steeds beschikbaar in je werkruimte.
- Pas een filter toe zodat het alleen observaties uit Azië bevat, en maak vervolgens een nieuwe variabele
is_outlierdieTRUEis voor landen met een levensverwachting onder de 50. Ken het resultaat toe aangap_asia. - Filter
gap_asiaom alle uitschieters te verwijderen en maak daarna nog een boxplot van de overgebleven levensverwachtingen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Filter for Asia, add column indicating outliers
gap_asia <- ___ %>%
filter(___) %>%
mutate(___ = ___)
# Remove outliers, create box plot of lifeExp
gap_asia %>%
filter(___) %>%
ggplot(aes(x = ___, y = ___)) +
___