Imputaties beoordelen: Over veel variabelen

Tot nu toe hebben we manieren besproken om naar afzonderlijke variabelen of paren van variabelen en hun geïmputeerde waarden te kijken. Soms wil je echter de imputaties voor veel variabelen tegelijk bekijken. Hiervoor moet je wat data munging en herindeling doen. Deze les laat zien hoe je die datatransformatie uitvoert, wat best pittig kan zijn in nabular data. De functie shadow_long() zet de data in de juiste vorm voor dit soort visualisaties.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Oefeninstructies

Gebruik shadow_long() om de geïmputeerde data ocean_imp_mean te verzamelen, met focus op humidity en air_temp_c.
Print de data en bekijk deze.
Verken de imputaties in een histogram met geom_histogram(), zet de waarden op de x-as, kleur op basis van hun missingness en facet op variable.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Gather the imputed data 
ocean_imp_mean_gather <- shadow_long(___,
                                     ___,
                                     ___))
# Inspect the data
___

# Explore the imputations in a histogram 
ggplot(ocean_imp_mean_gather, 
       aes(x = value, fill = value_NA)) + 
  geom_histogram() + 
  facet_wrap(~variable)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

SkillTag.level.beginnerSkillTag.label

4.8+

Begin gratis met de cursus

Hoofdstuk 1 maakt je wegwijs in ontbrekende data: wat ontbrekende waarden zijn, hoe ze zich gedragen in R, hoe je ze detecteert en telt. Daarna introduceren we overzichten van ontbrekende data en hoe je ontbrekendheid samenvat over cases en variabelen, en hoe je dit binnen groepen in de data verkent. Tot slot bespreken we visualisaties van ontbrekende data: hoe je overzichtsvisualisaties maakt voor de hele gegevensset en voor variabelen, cases en andere samenvattingen, en hoe je dit per groep kunt onderzoeken.

Exercise 1: Introductie tot ontbrekende data Exercise 2: Ontbrekende waarden gebruiken en vinden Exercise 3: Hoeveel missende waarden zijn er?Exercise 4: Werken met ontbrekende waarden Exercise 5: Waarom zou je je druk maken om ontbrekende waarden?Exercise 6: Ontbrekende waarden samenvatten Exercise 7: Missings in een tabel samenvatten Exercise 8: Andere samenvattingen van ontbrekende waarden Exercise 9: Hoe visualiseren we ontbrekende waarden?Exercise 10: Je eerste visualisaties van ontbrekende data Exercise 11: Missende cases en variabelen visualiseren Exercise 12: Ontbreekpatronen visualiseren

In hoofdstuk twee leer je verborgen ontbrekende waarden zoals "missing" of "N/A" op te sporen en te vervangen door `NA`. Je leert hoe je efficiënt omgaat met impliciet ontbrekende waarden — waarden die eigenlijk ontbreken, maar niet expliciet vermeld staan. We behandelen ook hoe je afhankelijkheid in ontbrekende data onderzoekt, met bespreking van Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR), en wat dit betekent voor je data-analyse.

Exercise 1: Zoeken naar en vervangen van ontbrekende waarden Exercise 2: miss_scan_count gebruiken Exercise 3: replace_with_na gebruiken Exercise 4: Scoped-varianten van replace_with_na gebruiken Exercise 5: Ontbrekende waarden omlaag invullen Exercise 6: Los impliciete missings op met complete()Exercise 7: Los expliciete missings op met fill()Exercise 8: complete() en fill() samen gebruiken Exercise 9: Afhankelijkheid van missende data Exercise 10: Verschillen tussen MCAR en MAR Exercise 11: Afhankelijkheid van ontbrekende waarden verkennen Exercise 12: Verdiepend verkennen van afhankelijkheid van ontbrekende waarden

In dit hoofdstuk leer je workflows voor werken met ontbrekende data. We introduceren speciale datastructuren, de shadow matrix en nabular data, en laten zien hoe je deze inzet in workflows om ontbrekende data te verkennen, zodat je samenvattingen van ontbrekendheid kunt koppelen aan waarden in de data. Je leert hoe je met ggplot verkent en visualiseert hoe waarden veranderen terwijl andere variabelen ontbreken. Tot slot leer je ontbrekendheid over twee variabelen te visualiseren, en hoe en waarom je ontbrekende waarden in een scatterplot visualiseert.

Exercise 1: Tools om afhankelijkheid van missende data te verkennen Exercise 2: Schaduwmatrixgegevens maken Exercise 3: Gegroepeerde samenvattingen van ontbrekende waarden maken Exercise 4: Verder verkennen van meer combinaties van missingness Exercise 5: Missings in één variabele visualiseren Exercise 6: Nabular data en vullen op basis van ontbrekendheid Exercise 7: Nabulaire data en samenvatten op ontbrekendheid Exercise 8: Variatie verkennen per ontbrekendheid: boxplots Exercise 9: Missings visualiseren over twee variabelen Exercise 10: Missende data verkennen met scatterplots Exercise 11: Facetten gebruiken om missings te verkennen Exercise 12: Facetting om ontbrekende waarden te verkennen (meerdere grafieken)

In dit hoofdstuk leer je hoe je ontbrekende waarden in je data kunt aanvullen, oftewel imputatie. Je leert hoe je imputeert en ontbrekende waarden bijhoudt, en wat de sterke en zwakke punten van imputaties zijn, zodat je de geïmputeerde data kunt verkennen, visualiseren en beoordelen ten opzichte van de oorspronkelijke waarden. Je leert hoe je verschillende imputatiemodellen gebruikt, beoordeelt en vergelijkt, en onderzoekt hoe verschillende imputatiemodellen de conclusies beïnvloeden die je uit de modellen kunt trekken.

Exercise 1: De lege plekken invullen Exercise 2: Imputeer data onder het bereik met nabular-data Exercise 3: Gëimputeerde waarden visualiseren in een scatterplot Exercise 4: Maak een histogram van geïmputeerde data Exercise 5: Wat maakt een goede imputatie Exercise 6: Slechte imputaties beoordelen Exercise 7: Imputaties beoordelen: de schaal Exercise 8: Imputaties beoordelen: Over veel variabelen

Huidige oefening

Exercise 9: Imputaties uitvoeren Exercise 10: Gegevens imputeren met simputation Exercise 11: Imputaties evalueren en vergelijken Exercise 12: Imputaties beoordelen (meerdere modellen & variabelen)Exercise 13: Imputaties en modellen evalueren Exercise 14: Veel imputatiemodellen combineren en vergelijken Exercise 15: De verschillende parameters in het model evalueren Exercise 16: Laatste les