Aan de slagGa gratis aan de slag

Gegevens imputeren met simputation

Er zijn veel imputation-pakketten in R. We gaan ons richten op het simputation-pakket, dat een eenvoudige, krachtige interface biedt voor het uitvoeren van imputaties.

Een goed imputatiemodel bouwen is superbelangrijk, maar ook complex—er komt net zoveel bij kijken als bij het bouwen van een goed statistisch model. In deze cursus focussen we op hoe je imputaties kunt beoordelen.

Eerst bekijken we de functie impute_lm(), die waarden imputeert op basis van een gespecificeerd lineair model.

In deze oefening passen we de eerdere beoordelingstechnieken toe op gegevens met impute_lm(), en bouwen we in de volgende lessen verder op deze imputatiemethode.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Cursus bekijken

Oefeninstructies

Gebruik de oceanbuoys-gegevensset:

  • Imputeer humidity met wind_ew en wind_ns, en houd missende waarden bij met add_label_shadow().
  • Plot de geïmputeerde waarden voor air_temp_c en humidity, op respectievelijk de x- en y-as, en kleur op basis van any_missing().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>% 
    bind_shadow() %>%
    impute_lm(air_temp_c ~ wind_ew + wind_ns) %>% 
    impute_lm(___ ~ ___ + ___) %>%
    add_label_shadow()
    
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___, 
       aes(x = ___, y = ___, color = any_missing)) + 
  geom_point()
Code bewerken en uitvoeren