Imputieren mit Random Forests
Ein Machine-Learning-Ansatz zur Imputation kann sowohl genauer als auch einfacher umzusetzen sein als traditionelle statistische Modelle. Erstens musst du keine Beziehungen zwischen Variablen vorab festlegen. Außerdem können Machine-Learning-Modelle wie Random Forests sehr komplexe, nichtlineare Zusammenhänge entdecken und nutzen, um fehlende Werte vorherzusagen.
In dieser Übung lernst du das Paket missForest kennen. Es baut für jede Variable nacheinander einen eigenen Random Forest auf, um fehlende Werte vorherzusagen. Du rufst die Imputationsfunktion auf den biografischen Filmdaten biopics auf, mit denen du früher im Kurs gearbeitet hast, und extrahierst anschließend sowohl die ausgefüllten Daten als auch die geschätzten Imputationsfehler.
Lass uns ein paar Random Forests pflanzen!
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Lade das Paket
missForest. - Verwende
missForest(), um fehlende Werte in denbiopics-Daten zu imputieren; weise das Ergebnisimp_reszu. - Extrahiere den imputierten Datensatz aus
imp_res, weise ihnimp_datazu, und prüfe, ob die Anzahl fehlender Werte tatsächlich null ist. - Extrahiere den geschätzten Imputationsfehler aus
imp_res, weise ihnimp_errzu, und gib ihn in der Konsole aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the missForest package
___
# Impute biopics data using missForest
imp_res <- ___(___)
# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))
# Extract and print imputation errors
imp_err <- imp_res$___
print(___)