Gegroepeerde samenvattingen van ontbrekende waarden maken
Nu je nabular data kunt maken, gaan we die gebruiken om de gegevens te verkennen. We berekenen samenvattende statistieken op basis van het ontbreken van een andere variabele.
Hiervoor gebruiken we de volgende stappen:
Eerst zet
bind_shadow()de data om in nabular data.Vervolgens voer je enkele samenvattingen uit met
group_by()ensummarize()om het gemiddelde en de standaarddeviatie te berekenen met de functiesmean()ensd().
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in R
Oefeninstructies
Voor de
oceanbuoys-gegevensset:Gebruik
bind_shadow(), daarnagroup_by()op het ontbreken van humidity (humidity_NA) en bereken de gemiddelden en standaarddeviaties voor wind oost-west (wind_ew) metsummarize()uit dplyr.Herhaal dit, maar bereken nu samenvattingen voor wind noord-zuid (
wind_ns).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# `bind_shadow()` and `group_by()` humidity missingness (`humidity_NA`)
oceanbuoys %>%
___() %>%
group_by(___) %>%
summarize(wind_ew_mean = mean(___), # calculate mean of wind_ew
wind_ew_sd = ___)) # calculate standard deviation of wind_ew
# Repeat this, but calculating summaries for wind north south (`wind_ns`).
___ %>%
___ %>%
group_by(___) %>%
summarize(___ = ___(___),
___ = ___(___))