Imputaties evalueren en vergelijken

Als je een imputatiemodel opstelt, is het een goed idee dit te vergelijken met een andere methode. In deze les vergelijken we de eerder geïmputeerde gegevensset die is gemaakt met impute_lm() met de gemiddelde-imputatiegegevensset. Beide gegevenssets zijn in deze oefening opgenomen als respectievelijk ocean_imp_lm_wind en ocean_imp_mean.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Oefeninstructies

Voeg de modellen samen met bind_rows(), plaats het model ocean_imp_mean onder mean en ocean_imp_lm_wind onder lm_wind.
Bekijk de waarden van air_temp en humidity in een spreidingsdiagram, zet air_temp_c op de x-as, humidity op de y-as, kleur op eventuele missings, en facet op het gebruikte imputatiemodel (imp_model).

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Bind the models together 
bound_models <- bind_rows(mean = ___,
                          lm_wind = ___,
                          .id = "imp_model")

# Inspect the values of air_temp and humidity as a scatter plot
ggplot(___, 
       aes(x = ___, 
           y = ___, 
           color = any_missing)) +
  geom_point() + 
  facet_wrap(~___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

SkillTag.level.beginnerSkillTag.label

4.8+

Begin gratis met de cursus

Hoofdstuk 1 maakt je wegwijs in ontbrekende data: wat ontbrekende waarden zijn, hoe ze zich gedragen in R, hoe je ze detecteert en telt. Daarna introduceren we overzichten van ontbrekende data en hoe je ontbrekendheid samenvat over cases en variabelen, en hoe je dit binnen groepen in de data verkent. Tot slot bespreken we visualisaties van ontbrekende data: hoe je overzichtsvisualisaties maakt voor de hele gegevensset en voor variabelen, cases en andere samenvattingen, en hoe je dit per groep kunt onderzoeken.

Exercise 1: Introductie tot ontbrekende data Exercise 2: Ontbrekende waarden gebruiken en vinden Exercise 3: Hoeveel missende waarden zijn er?Exercise 4: Werken met ontbrekende waarden Exercise 5: Waarom zou je je druk maken om ontbrekende waarden?Exercise 6: Ontbrekende waarden samenvatten Exercise 7: Missings in een tabel samenvatten Exercise 8: Andere samenvattingen van ontbrekende waarden Exercise 9: Hoe visualiseren we ontbrekende waarden?Exercise 10: Je eerste visualisaties van ontbrekende data Exercise 11: Missende cases en variabelen visualiseren Exercise 12: Ontbreekpatronen visualiseren

In hoofdstuk twee leer je verborgen ontbrekende waarden zoals "missing" of "N/A" op te sporen en te vervangen door `NA`. Je leert hoe je efficiënt omgaat met impliciet ontbrekende waarden — waarden die eigenlijk ontbreken, maar niet expliciet vermeld staan. We behandelen ook hoe je afhankelijkheid in ontbrekende data onderzoekt, met bespreking van Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR), en wat dit betekent voor je data-analyse.

Exercise 1: Zoeken naar en vervangen van ontbrekende waarden Exercise 2: miss_scan_count gebruiken Exercise 3: replace_with_na gebruiken Exercise 4: Scoped-varianten van replace_with_na gebruiken Exercise 5: Ontbrekende waarden omlaag invullen Exercise 6: Los impliciete missings op met complete()Exercise 7: Los expliciete missings op met fill()Exercise 8: complete() en fill() samen gebruiken Exercise 9: Afhankelijkheid van missende data Exercise 10: Verschillen tussen MCAR en MAR Exercise 11: Afhankelijkheid van ontbrekende waarden verkennen Exercise 12: Verdiepend verkennen van afhankelijkheid van ontbrekende waarden

In dit hoofdstuk leer je workflows voor werken met ontbrekende data. We introduceren speciale datastructuren, de shadow matrix en nabular data, en laten zien hoe je deze inzet in workflows om ontbrekende data te verkennen, zodat je samenvattingen van ontbrekendheid kunt koppelen aan waarden in de data. Je leert hoe je met ggplot verkent en visualiseert hoe waarden veranderen terwijl andere variabelen ontbreken. Tot slot leer je ontbrekendheid over twee variabelen te visualiseren, en hoe en waarom je ontbrekende waarden in een scatterplot visualiseert.

Exercise 1: Tools om afhankelijkheid van missende data te verkennen Exercise 2: Schaduwmatrixgegevens maken Exercise 3: Gegroepeerde samenvattingen van ontbrekende waarden maken Exercise 4: Verder verkennen van meer combinaties van missingness Exercise 5: Missings in één variabele visualiseren Exercise 6: Nabular data en vullen op basis van ontbrekendheid Exercise 7: Nabulaire data en samenvatten op ontbrekendheid Exercise 8: Variatie verkennen per ontbrekendheid: boxplots Exercise 9: Missings visualiseren over twee variabelen Exercise 10: Missende data verkennen met scatterplots Exercise 11: Facetten gebruiken om missings te verkennen Exercise 12: Facetting om ontbrekende waarden te verkennen (meerdere grafieken)

In dit hoofdstuk leer je hoe je ontbrekende waarden in je data kunt aanvullen, oftewel imputatie. Je leert hoe je imputeert en ontbrekende waarden bijhoudt, en wat de sterke en zwakke punten van imputaties zijn, zodat je de geïmputeerde data kunt verkennen, visualiseren en beoordelen ten opzichte van de oorspronkelijke waarden. Je leert hoe je verschillende imputatiemodellen gebruikt, beoordeelt en vergelijkt, en onderzoekt hoe verschillende imputatiemodellen de conclusies beïnvloeden die je uit de modellen kunt trekken.

Exercise 1: De lege plekken invullen Exercise 2: Imputeer data onder het bereik met nabular-data Exercise 3: Gëimputeerde waarden visualiseren in een scatterplot Exercise 4: Maak een histogram van geïmputeerde data Exercise 5: Wat maakt een goede imputatie Exercise 6: Slechte imputaties beoordelen Exercise 7: Imputaties beoordelen: de schaal Exercise 8: Imputaties beoordelen: Over veel variabelen Exercise 9: Imputaties uitvoeren Exercise 10: Gegevens imputeren met simputation Exercise 11: Imputaties evalueren en vergelijken

Huidige oefening

Exercise 12: Imputaties beoordelen (meerdere modellen & variabelen)Exercise 13: Imputaties en modellen evalueren Exercise 14: Veel imputatiemodellen combineren en vergelijken Exercise 15: De verschillende parameters in het model evalueren Exercise 16: Laatste les