Omgaan met ontbrekende toetsresultaten
Als we SAT-scores als uitkomst willen gebruiken, moeten we ontbrekende waarden bekijken. Onderzoek het patroon van ontbrekende waarden over alle variabelen in nyc_scores met miss_var_summary() uit het naniar-pakket. naniar sluit aan op de Tidyverse-stijl, inclusief de pipe-operator (%>%).
Er ontbreken 60 scores per vak. Hoewel er veel R-pakketten zijn voor geavanceerdere vormen van imputatie, zoals MICE, Amelia en mi, blijven we simputation en impute_median() gebruiken.
Maak een nieuwe gegevensset, nyc_scores_2, door de wiskundescore per Borough te imputeren, maar let op dat impute_median() de geïmputeerde variabele teruggeeft met type "impute". Je zet de variabele in een aparte stap om naar numeriek.
simputation en dplyr zijn geladen.
Deze oefening maakt deel uit van de cursus
Experimenteel ontwerp in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load naniar
___
# Examine missingness with miss_var_summary()
___