Aan de slagGa gratis aan de slag

Gemiddelde-imputatie voor de temperatuur

Gemiddelde-imputatie kan riskant zijn. Als de variabele waarop je gemiddelde-imputatie toepast gecorreleerd is met andere variabelen, kan die correlatie worden verstoord door de geïmiteerde waarden. Je zag dit al aankomen in de vorige oefening toen je de variabele air_temp analyseerde.

Om te checken of deze zorgen terecht zijn, ga je in deze oefening gemiddelde-imputatie uitvoeren op air_temp, en tegelijk een binaire indicator maken voor waar waarden zijn geïmiteerd. Dat komt goed van pas in de volgende oefening, waarin je de prestaties van je imputatie beoordeelt. Laten we die ontbrekende waarden invullen!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Oefeninstructies

  • Maak in de pipeline die tao aanpast een nieuwe variabele air_temp_imp die TRUE is als air_temp ontbreekt en anders FALSE.
  • Overschrijf later in dezelfde pipeline air_temp met zijn eigen gemiddelde wanneer het ontbreekt en laat het anders ongemoeid, en wijs het resultaat toe aan tao_imp.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

tao_imp <- tao %>% 
  # Create a binary indicator for missing values in air_temp
  ___(air_temp_imp = ifelse(___(___), ___, ___)) %>% 
  # Impute air_temp with its mean
  ___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))

# Print the first 10 rows of tao_imp
head(tao_imp, 10)
Code bewerken en uitvoeren