Aan de slagGa gratis aan de slag

Imputeer data onder het bereik met nabular-data

We willen bijhouden welke waarden we hebben geïmputeerd. Als we dat niet doen, is het heel lastig om te beoordelen hoe goed de geïmputeerde waarden zijn.

We gaan oefenen met imputeren en de visualisaties uit de vorige reeks oefeningen opnieuw maken door waarden onder het bereik van de data te imputeren.

Dit is een handige manier om ontbrekendheid verder te verkennen, en biedt ook het raamwerk voor het imputeren van ontbrekende waarden.

Eerst imputeren we de data onder het bereik met impute_below_all(), en visualiseren we de data. We merken dat we in dit geval wel kunnen zien waar de ontbrekende waarden zitten, maar dat we een manier nodig hebben om ze te volgen. Het programmeerpatroon om ontbrekende data te tracken kan hierbij helpen.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Cursus bekijken

Oefeninstructies

Gebruik de oceanbuoys-data:

  • Imputeer onder het bereik met impute_below_all().
  • Visualiseer de nieuwe ontbrekende waarden met wind_ew op de x-as en air_temp_c op de y-as.
  • Imputeer en volg data met bind_shadow(), impute_below_all() en add_label_shadow().
  • Toon de plot en bekijk de geïmputeerde waarden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Impute the oceanbuoys data below the range using `impute_below`.
ocean_imp <- impute_below_all(___)

# Visualize the new missing values
ggplot(___, 
       aes(x = ___, y = ___)) +  
  geom_point()

# Impute and track data with `bind_shadow`, `impute_below_all`, and `add_label_shadow`
ocean_imp_track <- bind_shadow(___) %>% 
  ___() %>% 
  ___()

# Look at the imputed values
___
Code bewerken en uitvoeren