LoslegenKostenlos loslegen

Imputieren mit Random Forests

Ein Machine-Learning-Ansatz zur Imputation kann sowohl genauer als auch einfacher umzusetzen sein als traditionelle statistische Modelle. Erstens musst du keine Beziehungen zwischen Variablen vorab festlegen. Außerdem können Machine-Learning-Modelle wie Random Forests sehr komplexe, nichtlineare Zusammenhänge entdecken und nutzen, um fehlende Werte vorherzusagen.

In dieser Übung lernst du das Paket missForest kennen. Es baut für jede Variable nacheinander einen eigenen Random Forest auf, um fehlende Werte vorherzusagen. Du rufst die Imputationsfunktion auf den biografischen Filmdaten biopics auf, mit denen du früher im Kurs gearbeitet hast, und extrahierst anschließend sowohl die ausgefüllten Daten als auch die geschätzten Imputationsfehler.

Lass uns ein paar Random Forests pflanzen!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Kurs anzeigen

Anleitung zur Übung

  • Lade das Paket missForest.
  • Verwende missForest(), um fehlende Werte in den biopics-Daten zu imputieren; weise das Ergebnis imp_res zu.
  • Extrahiere den imputierten Datensatz aus imp_res, weise ihn imp_data zu, und prüfe, ob die Anzahl fehlender Werte tatsächlich null ist.
  • Extrahiere den geschätzten Imputationsfehler aus imp_res, weise ihn imp_err zu, und gib ihn in der Konsole aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the missForest package
___

# Impute biopics data using missForest
imp_res <- ___(___)

# Extract imputed data and check for missing values
imp_data <- imp_res$___
print(___(___(___)))

# Extract and print imputation errors
imp_err <- imp_res$___
print(___)
Code bearbeiten und ausführen