Hot-deck tips & tricks I: imputeren binnen domeinen
Een handige truc wanneer hot-deck-imputatie de relaties tussen variabelen verstoort, is imputeren binnen domeinen. Dit betekent dat als de te imputeren variabele samenhangt met een andere, categorische variabele, je hot-deck simpelweg apart kunt uitvoeren voor elke categorie.
Je verwacht bijvoorbeeld dat luchttemperatuur afhangt van tijd, omdat de gemiddelde temperaturen stijgen door klimaatverandering. De tijdsindicator die je in de tao-data hebt, is een categorische variabele, year. Laten we eerst controleren of de gemiddelde luchttemperatuur verschilt tussen de twee bestudeerde jaren en vervolgens hot-deck uitvoeren binnen jaardomeinen. Tot slot maak je opnieuw de margin plot om de imputatieprestaties te beoordelen.
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Bereken de gemiddelde
air_tempper jaar en noem het resultaataverage_air_temp, waarbij jeNA’s uitsluit bij het berekenen van het gemiddelde. - Imputeer de missende waarden in
air_tempin detao-data binnenyear-domeinen met hot-deck-imputatie en sla het resultaat op intao_imp. - Maak een margin plot van
air_temptegenoversea_surface_temp; vergeet nietair_temp_impop te nemen in de variabelen die je aan de plotfunctie doorgeeft.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)