Hot-deck tips & tricks II: sorteren op gecorreleerde variabelen
Een andere truc die de prestaties van hot-deck-imputatie kan verbeteren, is de gegevens sorteren op variabelen die correleren met de variabele die je wilt imputeren.
In alle marginplots die je onlangs hebt gemaakt, heb je bijvoorbeeld gezien dat luchttemperatuur sterk correleert met de zeewatertemperatuur, wat heel logisch is. Die kennis kun je benutten om je hot-deck-imputatie te verbeteren. Als je de gegevens eerst sorteert op sea_surface_temp, komt elke geïmuteerde air_temp-waarde van een donor met een vergelijkbare sea_surface_temp. Laten we kijken hoe dat werkt!
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Voer hot-deck-imputatie uit voor de missende waarden in
air_tempin detao-gegevens, gesorteerd opsea_surface_temp, en sla het resultaat op intao_imp. - Maak een marginplot van
air_tempversussea_surface_temp.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(air_temp, sea_surface_temp, air_temp_imp) %>%
___(___ = ___)