Aan de slagBegin gratis

Hot-deck tips & tricks II: sorteren op gecorreleerde variabelen

Een andere truc die de prestaties van hot-deck-imputatie kan verbeteren, is de gegevens sorteren op variabelen die correleren met de variabele die je wilt imputeren.

In alle marginplots die je onlangs hebt gemaakt, heb je bijvoorbeeld gezien dat luchttemperatuur sterk correleert met de zeewatertemperatuur, wat heel logisch is. Die kennis kun je benutten om je hot-deck-imputatie te verbeteren. Als je de gegevens eerst sorteert op sea_surface_temp, komt elke geïmuteerde air_temp-waarde van een donor met een vergelijkbare sea_surface_temp. Laten we kijken hoe dat werkt!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Bekijk cursus

Oefeninstructies

  • Voer hot-deck-imputatie uit voor de missende waarden in air_temp in de tao-gegevens, gesorteerd op sea_surface_temp, en sla het resultaat op in tao_imp.
  • Maak een marginplot van air_temp versus sea_surface_temp.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(air_temp, sea_surface_temp, air_temp_imp) %>% 
	___(___ = ___)
Code bewerken en uitvoeren