Aan de slagGa gratis aan de slag

De imputatiekwaliteit beoordelen met een margeplot

In de vorige oefening heb je de gemiddelde imputatie toegepast op air_temp en een indicatorvariabele toegevoegd om aan te geven welke waarden zijn geïmputeerd, air_temp_imp. Tijd om te bekijken hoe goed dit werkt.

Als je de tao-gegevens bekeek, viel je wellicht op dat er ook een variabele sea_surface_temp in zit, waarvan je redelijkerwijs mag verwachten dat die positief correleert met air_temp. Als dat zo is, verwacht je dat deze twee temperaturen tegelijkertijd hoog of laag zijn. De gemiddelde luchttemperatuur imputeren wanneer de zeetemperatuur hoog of laag is, zou die relatie verstoren.

Om dat te onderzoeken, selecteer je in deze oefening de twee temperatuurvariabelen en de indicatorvariabele en gebruik je die om een margeplot te maken. Laten we de gemiddelde imputatie beoordelen!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
  select(___, ___, ___) %>%
  ___(delimiter = ___)
Code bewerken en uitvoeren