De mice-flow: mice - with - pool

Multiple imputation by chained equations (MICE) laat je de onzekerheid door imputatie inschatten door een gegevensset meerdere keren te imputeren met modelgebaseerde imputatie, waarbij wordt getrokken uit conditionele verdelingen. Zo wordt elke geïmputeerde gegevensset net iets anders. Daarna voer je op elk daarvan een analyse uit en pool je de resultaten, zodat je de grootheden van interesse krijgt, samen met hun betrouwbaarheidsintervallen die de imputatie-onzekerheid weerspiegelen.

In deze oefening ga je de typische MICE-flow oefenen: mice() - with() - pool(). Je voert een regressieanalyse uit op de biopics-data om te zien welk beroep van het onderwerp, sub_type, samenhangt met de hoogste opbrengst van films. Aan de slag met mice!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Oefeninstructies

Laad het pakket mice en imputeer biopics met mice() met 5 imputaties. Sla het resultaat op als biopics_multiimp.
Fit voor elke geïmputeerde gegevensset een lineair regressiemodel dat earnings verklaart met year en sub_type, en sla het resultaat op als lm_multiimp.
Pool de regressiemodellen in lm_multiimp samen en sla het resultaat op als lm_pooled.
Maak een samenvatting van lm_pooled die betrouwbaarheidsintervallen produceert met een betrouwbaarheidsniveau van 95%.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load mice package
___

# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)

# Fit linear regression to each imputed data set 
lm_multiimp <- ___(___, ___)

# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk ontdek je waarom missende data een risico kan zijn bij het analyseren van een gegevensset. Je maakt kennis met de drie mechanismen achter missende data en leert ze herkennen met statistische toetsen en visualisatietools.

Exercise 1: Ontbrekende data: wat kan er misgaan Exercise 2: Lineaire regressie met onvolledige gegevens Exercise 3: Regressie-uitvoer analyseren Exercise 4: Modellen vergelijken Exercise 5: Mechanismen achter ontbrekende data Exercise 6: Herkennen van mechanismen voor ontbrekende data Exercise 7: t-toets voor MAR: datavoorbereiding Exercise 8: t-toets voor MAR: interpretatie Exercise 9: Ontbrekende datap patronen visualiseren Exercise 10: Aggregatieplot Exercise 11: Ruggengraatafbeelding Exercise 12: Mozaïekdiagram

Leer de taxonomie van imputatiemethoden kennen en drie donorgebaseerde technieken: gemiddelde-, hot-deck- en k-Nearest-Neighbors-imputatie. Je kijkt onder de motorkap om te zien hoe deze methoden werken, voordat je ze toepast op een echte gegevensset met tropisch weer. Onderweg leer je ook handige trucs om ze nog beter te laten werken voor jouw problemen.

Exercise 1: Gemiddelde-imputatie Exercise 2: De gevaren van mean-imputatie ruiken Exercise 3: Gemiddelde-imputatie voor de temperatuur Exercise 4: De imputatiekwaliteit beoordelen met een margeplot Exercise 5: Hot-deck-imputatie Exercise 6: Standaard hot-deck Exercise 7: Hot-deck tips & tricks I: imputeren binnen domeinen Exercise 8: Hot-deck tips & tricks II: sorteren op gecorreleerde variabelen Exercise 9: k-Nearest-Neighbors-imputatie Exercise 10: Het aantal buren kiezen Exercise 11: kNN tips & tricks I: donoren wegen Exercise 12: kNN tips & tricks II: variabelen sorteren

Tijd om statistische en Machine Learning-modellen, zoals lineaire regressie, logistische regressie en random forests, te gebruiken om missende data te imputeren. In dit hoofdstuk kijk je hoe de modellen hun voorspellingen maken en gebruik je die kennis om de geïmputeerde waarden te trekken uit conditionele verdelingen. Dat is belangrijk, omdat je imputaties zo gevarieerder en plausibeler worden en meer lijken op de echte data.

Exercise 1: Modelgebaseerde imputatiemethode Exercise 2: Imputatie met lineaire regressie Exercise 3: Missende waarden initialiseren en over variabelen itereren Exercise 4: Convergentie detecteren Exercise 5: Variatie in data repliceren Exercise 6: Imputatie met logistic regression Exercise 7: Trekken uit een conditionele verdeling Exercise 8: Modelgebaseerde imputatie met meerdere variabeletype Exercise 9: Boomgebaseerde imputatie Exercise 10: Imputeren met random forests Exercise 11: Variabelegewijze imputatiefouten Exercise 12: Afweging tussen snelheid en nauwkeurigheid

Geïmputeerde waarden staan niet in steen gebeiteld. Het zijn schattingen, en schattingen brengen onzekerheid met zich mee. In dit laatste hoofdstuk ontdek je hoe bootstrapping en gekoppelde vergelijkingen met het pakket mice kunnen worden gebruikt om onzekerheid door imputatie op te nemen in je modellen en analyses, zodat ze betrouwbaarder en robuuster worden.

Exercise 1: Meervoudige imputatie via bootstrapping Exercise 2: Imputatie en modelleren verpakken in een functie Exercise 3: De bootstrap uitvoeren Exercise 4: Bootstrap-confidence-intervallen Exercise 5: Meervoudige imputatie met chained equations Exercise 6: De mice-flow: mice - with - pool

Huidige oefening

Exercise 7: Standaardmodellen kiezen Exercise 8: Een predictormatrix gebruiken Exercise 9: Alles samenbrengen Exercise 10: Analyseren van patronen in missende data Exercise 11: Imputeren en resultaten inspecteren Exercise 12: Inferentie met geïmputeerde data Exercise 13: Slotopmerkingen