Aan de slagGa gratis aan de slag

Imputeren met random forests

Een Machine Learning-benadering voor imputatie kan zowel nauwkeuriger zijn als makkelijker te implementeren dan traditionele statistische modellen. Je hoeft namelijk niet vooraf relaties tussen variabelen te specificeren. Bovendien kunnen Machine Learning-modellen zoals random forests zeer complexe, niet-lineaire relaties ontdekken en die benutten om missende waarden te voorspellen.

In deze oefening maak je kennis met het missForest-pakket, dat voor elke variabele afzonderlijk een random forest bouwt om missende waarden te voorspellen. Je roept de imputatiefunctie aan op de biografische-filmsgegevens, biopics, waar je eerder in de cursus mee hebt gewerkt, en haalt vervolgens zowel de ingevulde gegevens als de geschatte imputatiefouten eruit.

Tijd om wat random forests te planten!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Oefeninstructies

  • Laad het pakket missForest.
  • Gebruik missForest() om missende waarden in de biopics-gegevens te imputeren; sla het resultaat op in imp_res.
  • Haal de geïmputeerde gegevensset uit imp_res, sla deze op in imp_data, en controleer of het aantal missende waarden inderdaad nul is.
  • Haal de geschatte imputatiefout uit imp_res, sla deze op in imp_err, en print die naar de console.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)
Code bewerken en uitvoeren