Aan de slagGa gratis aan de slag

Modelgebaseerde imputatie met meerdere variabeletype

Goed gedaan met het schrijven van de functie voor imputatie met logistische regressie waarbij je trekt uit de conditionele verdeling. Dat is behoorlijk geavanceerde statistiek die je hebt gecodeerd! In deze oefening ga je alles wat je tot nu toe hebt geleerd over modelgebaseerde imputatie combineren om verschillende soorten variabelen in de tao-gegevens te imputeren.

Je taak is om over variabelen te itereren, net zoals je in het vorige hoofdstuk hebt gedaan, en twee variabelen te imputeren:

  • is_hot, een nieuwe binaire variabele die is afgeleid van air_temp, die 1 is als air_temp 26 graden of hoger is en anders 0;
  • humidity, een continue variabele waar je al bekend mee bent.

Je moet de lineaire regressiefunctie gebruiken die je eerder hebt geleerd, en ook je eigen functie voor logistische regressie. Aan de slag!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Oefeninstructies

  • Zet is_hot op NA op de plekken waar het oorspronkelijk ontbrak.
  • Imputeer is_hot met logistische regressie, met sea_surface_temp als enige voorspeller; gebruik je functie impute_logreg().
  • Zet humidity op NA op de plekken waar het oorspronkelijk ontbrak.
  • Imputeer humidity met lineaire regressie, met sea_surface_temp en air_temp als voorspellers.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)

# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp

for (i in 1:3) {
  # Set is_hot to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ ___)
  # Set humidity to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}
Code bewerken en uitvoeren