Aan de slagGa gratis aan de slag

Hot-deck tips & tricks II: sorteren op gecorreleerde variabelen

Een andere truc die de prestaties van hot-deck-imputatie kan verbeteren, is de gegevens sorteren op variabelen die correleren met de variabele die je wilt imputeren.

In alle marginplots die je onlangs hebt gemaakt, heb je bijvoorbeeld gezien dat luchttemperatuur sterk correleert met de zeewatertemperatuur, wat heel logisch is. Die kennis kun je benutten om je hot-deck-imputatie te verbeteren. Als je de gegevens eerst sorteert op sea_surface_temp, komt elke geïmuteerde air_temp-waarde van een donor met een vergelijkbare sea_surface_temp. Laten we kijken hoe dat werkt!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Oefeninstructies

  • Voer hot-deck-imputatie uit voor de missende waarden in air_temp in de tao-gegevens, gesorteerd op sea_surface_temp, en sla het resultaat op in tao_imp.
  • Maak een marginplot van air_temp versus sea_surface_temp.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(air_temp, sea_surface_temp, air_temp_imp) %>% 
	___(___ = ___)
Code bewerken en uitvoeren