Aan de slagGa gratis aan de slag

Hot-deck tips & tricks I: imputeren binnen domeinen

Een handige truc wanneer hot-deck-imputatie de relaties tussen variabelen verstoort, is imputeren binnen domeinen. Dit betekent dat als de te imputeren variabele samenhangt met een andere, categorische variabele, je hot-deck simpelweg apart kunt uitvoeren voor elke categorie.

Je verwacht bijvoorbeeld dat luchttemperatuur afhangt van tijd, omdat de gemiddelde temperaturen stijgen door klimaatverandering. De tijdsindicator die je in de tao-data hebt, is een categorische variabele, year. Laten we eerst controleren of de gemiddelde luchttemperatuur verschilt tussen de twee bestudeerde jaren en vervolgens hot-deck uitvoeren binnen jaardomeinen. Tot slot maak je opnieuw de margin plot om de imputatieprestaties te beoordelen.

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Oefeninstructies

  • Bereken de gemiddelde air_temp per jaar en noem het resultaat average_air_temp, waarbij je NA’s uitsluit bij het berekenen van het gemiddelde.
  • Imputeer de missende waarden in air_temp in de tao-data binnen year-domeinen met hot-deck-imputatie en sla het resultaat op in tao_imp.
  • Maak een margin plot van air_temp tegenover sea_surface_temp; vergeet niet air_temp_imp op te nemen in de variabelen die je aan de plotfunctie doorgeeft.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Code bewerken en uitvoeren