Imputeer data onder het bereik met nabular-data
We willen bijhouden welke waarden we hebben geïmputeerd. Als we dat niet doen, is het heel lastig om te beoordelen hoe goed de geïmputeerde waarden zijn.
We gaan oefenen met imputeren en de visualisaties uit de vorige reeks oefeningen opnieuw maken door waarden onder het bereik van de data te imputeren.
Dit is een handige manier om ontbrekendheid verder te verkennen, en biedt ook het raamwerk voor het imputeren van ontbrekende waarden.
Eerst imputeren we de data onder het bereik met impute_below_all(), en visualiseren we de data. We merken dat we in dit geval wel kunnen zien waar de ontbrekende waarden zitten, maar dat we een manier nodig hebben om ze te volgen. Het programmeerpatroon om ontbrekende data te tracken kan hierbij helpen.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in R
Oefeninstructies
Gebruik de oceanbuoys-data:
- Imputeer onder het bereik met
impute_below_all(). - Visualiseer de nieuwe ontbrekende waarden met
wind_ewop de x-as enair_temp_cop de y-as. - Imputeer en volg data met
bind_shadow(),impute_below_all()enadd_label_shadow(). - Toon de plot en bekijk de geïmputeerde waarden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Impute the oceanbuoys data below the range using `impute_below`.
ocean_imp <- impute_below_all(___)
# Visualize the new missing values
ggplot(___,
aes(x = ___, y = ___)) +
geom_point()
# Impute and track data with `bind_shadow`, `impute_below_all`, and `add_label_shadow`
ocean_imp_track <- bind_shadow(___) %>%
___() %>%
___()
# Look at the imputed values
___