Imputaties beoordelen: de schaal
Hoewel een gemiddelde-imputatie er op een boxplot misschien niet zo slecht uitziet, is het belangrijk om gevoel te krijgen voor de variatie in de data. Daarom is het belangrijk te verkennen hoe de schaal en spreiding van geïmputeerde waarden veranderen ten opzichte van de data.
Eén manier om te beoordelen of de schaal van de imputaties passend is, is een scatterplot gebruiken om te onderzoeken of de waarden wel of niet geschikt zijn.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in R
Oefeninstructies
Gebruik de data met al geïmputeerde waarden, ocean_imp_mean:
- Verken de imputaties in luchttemperatuur (op de x-as) en luchtvochtigheid (op de y-as) met een scatterplot, en gebruik
color = any_missing. - Bouw voort op deze visualisatie door te facetten per jaar.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Explore imputations in air temperature and humidity,
# coloring by the variable, any_missing
ggplot(___,
aes(x = ___, y = ___, color = ___)) +
geom_point()
# Explore imputations in air temperature and humidity,
# coloring by the variable, any_missing, and faceting by year
ggplot(___,
aes(x = ___, y = ___, color = ___)) +
___() +
facet_wrap(~___)