Spreidingsmaten berekenen

Laten we de krachtige group_by()- en summarize()-syntaxis uitbreiden naar spreidingsmaten. Als je niet zeker weet of je met symmetrische of scheve verdelingen werkt, is het een goed idee om naast de gebruikelijke variantie of standaarddeviatie ook een robuuste maat zoals de IQR mee te nemen.

Deze oefening maakt deel uit van de cursus

Exploratory Data Analysis in R

Bekijk cursus

Oefeninstructies

De gap2007-gegevensset die je in een eerdere oefening hebt gemaakt, is beschikbaar in je werkruimte.

Vat voor elk continent in gap2007 de levensverwachting samen met sd(), IQR() en het aantal landen, n(). Je hoeft de nieuwe kolommen hier geen namen te geven. De functie n() binnen je summarize()-aanroep neemt geen argumenten.
Vergelijk de spreiding van deze verdelingen grafisch door overlappende dichtheidsplots van de levensverwachting te maken, uitgesplitst naar continent.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute groupwise measures of spread
gap2007 %>%
  group_by(___) %>%
  summarize(___,
            ___,
            ___)

# Generate overlaid density plots
gap2007 %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_density(alpha = 0.3)

Code bewerken en uitvoeren