Imputeren met random forests
Een Machine Learning-benadering voor imputatie kan zowel nauwkeuriger zijn als makkelijker te implementeren dan traditionele statistische modellen. Je hoeft namelijk niet vooraf relaties tussen variabelen te specificeren. Bovendien kunnen Machine Learning-modellen zoals random forests zeer complexe, niet-lineaire relaties ontdekken en die benutten om missende waarden te voorspellen.
In deze oefening maak je kennis met het missForest-pakket, dat voor elke variabele afzonderlijk een random forest bouwt om missende waarden te voorspellen. Je roept de imputatiefunctie aan op de biografische-filmsgegevens, biopics, waar je eerder in de cursus mee hebt gewerkt, en haalt vervolgens zowel de ingevulde gegevens als de geschatte imputatiefouten eruit.
Tijd om wat random forests te planten!
Deze oefening maakt deel uit van de cursus
Omgaan met missende data met imputaties in R
Oefeninstructies
- Laad het pakket
missForest. - Gebruik
missForest()om missende waarden in debiopics-gegevens te imputeren; sla het resultaat op inimp_res. - Haal de geïmputeerde gegevensset uit
imp_res, sla deze op inimp_data, en controleer of het aantal missende waarden inderdaad nul is. - Haal de geschatte imputatiefout uit
imp_res, sla deze op inimp_err, en print die naar de console.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the missForest package
___
# Impute biopics data using missForest
imp_res <- ___(___)
# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))
# Extract and print imputation errors
imp_err <- imp_res$___
print(___)