Imputaties beoordelen (meerdere modellen & variabelen)

Als je een imputatiemodel opbouwt, is het een goed idee om het te vergelijken met een andere methode.

In deze les ga je een laatste imputatiemodel toevoegen dat een extra, nuttig stuk informatie bevat dat helpt om een deel van de variatie in de data te verklaren. Daarna ga je de waarden vergelijken, net zoals je in de vorige les hebt gedaan.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Oefeninstructies

Gebruik de oceanbuoys-gegevensset:

Imputeer data met impute_lm(), en voeg year toe aan het model.
Bind de imputatiemethoden samen, waarbij je ocean_imp_mean in mean plaatst, ocean_imp_lm_wind in lm_wind, en ocean_imp_lm_wind_year in lm_wind_year.
Bekijk de waarden van air_temp_c (op de x-as) en humidity (op de y-as), kleur op aanwezigheid van missings, en facet op imputatiemodel.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Build a model adding year to the outcome
ocean_imp_lm_wind_year <- bind_shadow(___) %>%
  impute_lm(air_temp_c ~ wind_ew + wind_ns + ___) %>%
  impute_lm(humidity ~ wind_ew + wind_ns + ___) %>%
  add_label_shadow()

# Bind the mean, lm_wind, and lm_wind_year models together
bound_models <- bind_rows(mean = ocean_imp_mean,
                          lm_wind = ocean_imp_lm_wind,
                          lm_wind_year = ___,
                          .id = "imp_model")

# Explore air_temp and humidity, coloring by any missings, and faceting by imputation model
ggplot(___, aes(x = ___, y = ___, color = any_missing)) + 
  geom_point() + facet_wrap(~___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

SkillTag.level.beginnerSkillTag.label

4.8+

Begin gratis met de cursus

Hoofdstuk 1 maakt je wegwijs in ontbrekende data: wat ontbrekende waarden zijn, hoe ze zich gedragen in R, hoe je ze detecteert en telt. Daarna introduceren we overzichten van ontbrekende data en hoe je ontbrekendheid samenvat over cases en variabelen, en hoe je dit binnen groepen in de data verkent. Tot slot bespreken we visualisaties van ontbrekende data: hoe je overzichtsvisualisaties maakt voor de hele gegevensset en voor variabelen, cases en andere samenvattingen, en hoe je dit per groep kunt onderzoeken.

Exercise 1: Introductie tot ontbrekende data Exercise 2: Ontbrekende waarden gebruiken en vinden Exercise 3: Hoeveel missende waarden zijn er?Exercise 4: Werken met ontbrekende waarden Exercise 5: Waarom zou je je druk maken om ontbrekende waarden?Exercise 6: Ontbrekende waarden samenvatten Exercise 7: Missings in een tabel samenvatten Exercise 8: Andere samenvattingen van ontbrekende waarden Exercise 9: Hoe visualiseren we ontbrekende waarden?Exercise 10: Je eerste visualisaties van ontbrekende data Exercise 11: Missende cases en variabelen visualiseren Exercise 12: Ontbreekpatronen visualiseren

In hoofdstuk twee leer je verborgen ontbrekende waarden zoals "missing" of "N/A" op te sporen en te vervangen door `NA`. Je leert hoe je efficiënt omgaat met impliciet ontbrekende waarden — waarden die eigenlijk ontbreken, maar niet expliciet vermeld staan. We behandelen ook hoe je afhankelijkheid in ontbrekende data onderzoekt, met bespreking van Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR), en wat dit betekent voor je data-analyse.

Exercise 1: Zoeken naar en vervangen van ontbrekende waarden Exercise 2: miss_scan_count gebruiken Exercise 3: replace_with_na gebruiken Exercise 4: Scoped-varianten van replace_with_na gebruiken Exercise 5: Ontbrekende waarden omlaag invullen Exercise 6: Los impliciete missings op met complete()Exercise 7: Los expliciete missings op met fill()Exercise 8: complete() en fill() samen gebruiken Exercise 9: Afhankelijkheid van missende data Exercise 10: Verschillen tussen MCAR en MAR Exercise 11: Afhankelijkheid van ontbrekende waarden verkennen Exercise 12: Verdiepend verkennen van afhankelijkheid van ontbrekende waarden

In dit hoofdstuk leer je workflows voor werken met ontbrekende data. We introduceren speciale datastructuren, de shadow matrix en nabular data, en laten zien hoe je deze inzet in workflows om ontbrekende data te verkennen, zodat je samenvattingen van ontbrekendheid kunt koppelen aan waarden in de data. Je leert hoe je met ggplot verkent en visualiseert hoe waarden veranderen terwijl andere variabelen ontbreken. Tot slot leer je ontbrekendheid over twee variabelen te visualiseren, en hoe en waarom je ontbrekende waarden in een scatterplot visualiseert.

Exercise 1: Tools om afhankelijkheid van missende data te verkennen Exercise 2: Schaduwmatrixgegevens maken Exercise 3: Gegroepeerde samenvattingen van ontbrekende waarden maken Exercise 4: Verder verkennen van meer combinaties van missingness Exercise 5: Missings in één variabele visualiseren Exercise 6: Nabular data en vullen op basis van ontbrekendheid Exercise 7: Nabulaire data en samenvatten op ontbrekendheid Exercise 8: Variatie verkennen per ontbrekendheid: boxplots Exercise 9: Missings visualiseren over twee variabelen Exercise 10: Missende data verkennen met scatterplots Exercise 11: Facetten gebruiken om missings te verkennen Exercise 12: Facetting om ontbrekende waarden te verkennen (meerdere grafieken)

In dit hoofdstuk leer je hoe je ontbrekende waarden in je data kunt aanvullen, oftewel imputatie. Je leert hoe je imputeert en ontbrekende waarden bijhoudt, en wat de sterke en zwakke punten van imputaties zijn, zodat je de geïmputeerde data kunt verkennen, visualiseren en beoordelen ten opzichte van de oorspronkelijke waarden. Je leert hoe je verschillende imputatiemodellen gebruikt, beoordeelt en vergelijkt, en onderzoekt hoe verschillende imputatiemodellen de conclusies beïnvloeden die je uit de modellen kunt trekken.

Exercise 1: De lege plekken invullen Exercise 2: Imputeer data onder het bereik met nabular-data Exercise 3: Gëimputeerde waarden visualiseren in een scatterplot Exercise 4: Maak een histogram van geïmputeerde data Exercise 5: Wat maakt een goede imputatie Exercise 6: Slechte imputaties beoordelen Exercise 7: Imputaties beoordelen: de schaal Exercise 8: Imputaties beoordelen: Over veel variabelen Exercise 9: Imputaties uitvoeren Exercise 10: Gegevens imputeren met simputation Exercise 11: Imputaties evalueren en vergelijken Exercise 12: Imputaties beoordelen (meerdere modellen & variabelen)

Huidige oefening

Exercise 13: Imputaties en modellen evalueren Exercise 14: Veel imputatiemodellen combineren en vergelijken Exercise 15: De verschillende parameters in het model evalueren Exercise 16: Laatste les