Gemiddelde-imputatie voor de temperatuur
Gemiddelde-imputatie kan riskant zijn. Als de variabele waarop je gemiddelde-imputatie toepast gecorreleerd is met andere variabelen, kan die correlatie worden verstoord door de geïmiteerde waarden. Je zag dit al aankomen in de vorige oefening toen je de variabele air_temp analyseerde.
Om te checken of deze zorgen terecht zijn, ga je in deze oefening gemiddelde-imputatie uitvoeren op air_temp, en tegelijk een binaire indicator maken voor waar waarden zijn geïmiteerd. Dat komt goed van pas in de volgende oefening, waarin je de prestaties van je imputatie beoordeelt. Laten we die ontbrekende waarden invullen!
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Maak in de pipeline die
taoaanpast een nieuwe variabeleair_temp_impdieTRUEis alsair_tempontbreekt en andersFALSE. - Overschrijf later in dezelfde pipeline
air_tempmet zijn eigen gemiddelde wanneer het ontbreekt en laat het anders ongemoeid, en wijs het resultaat toe aantao_imp.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
tao_imp <- tao %>%
# Create a binary indicator for missing values in air_temp
___(air_temp_imp = ifelse(___(___), ___, ___)) %>%
# Impute air_temp with its mean
___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))
# Print the first 10 rows of tao_imp
head(tao_imp, 10)