Andere samenvattingen van ontbrekende waarden
Sommige samenvattingen van ontbrekende waarden zijn extra handig voor verschillende soorten data. Denk aan miss_var_span() en miss_var_run().
miss_var_span()berekent het aantal ontbrekende waarden in een opgegeven variabele binnen een herhalende span. Dit is erg nuttig bij tijdreeksdata om te zoeken naar wekelijkse (7-daagse) patronen van missings.miss_var_run()berekent het aantal "runs" of "reeksen" van ontbrekende waarden. Dit helpt om ongebruikelijke patronen te vinden; zo kun je bijvoorbeeld een terugkerend patroon ontdekken van 5 complete en 5 ontbrekende waarden.
Zowel miss_var_span() als miss_var_run() werken samen met de group_by-operator uit dplyr.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in R
Oefeninstructies
Gebruik de pedestrian-gegevensset uit naniar:
- Bereken samenvattingen van ontbrekende waarden voor de variabelen in datasets met
miss_var_span(), voor een span van 4000. - Bereken samenvattingen van ontbrekende waarden voor de cases in datasets met
miss_var_run(). - Combineer dit met dplyr’s
group_by-operator voormonth.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the summaries for each run of missingness for the variable, hourly_counts
miss_var_run(pedestrian, var = ___)
# Calculate the summaries for each span of missingness,
# for a span of 4000, for the variable hourly_counts
miss_var_span(pedestrian, var = ___, span_every = ___)
# For each `month` variable, calculate the run of missingness for hourly_counts
pedestrian %>% group_by(month) %>% ___()
# For each `month` variable, calculate the span of missingness
# of a span of 2000, for the variable hourly_counts
pedestrian %>% group_by(___) %>% ___(var = ___, span_every = ___)