Verwendung der Prädiktormatrix
Eine wichtige Entscheidung bei modellbasierter Imputation ist, welche Variablen als Prädiktoren einbezogen werden sollen – und in welchen Modellen. In mice() wird das durch die Prädiktormatrix gesteuert; standardmäßig werden alle Variablen verwendet, um alle anderen zu imputieren.
Wenn es viele Variablen in den Daten gibt oder wenig Zeit für eine sorgfältige Modellauswahl bleibt, kannst du die mice-Funktionalität nutzen, um basierend auf den Korrelationen zwischen den Variablen eine Prädiktormatrix zu erstellen. Diese Matrix kann dann an mice() übergeben werden. In dieser Übung probierst du genau das aus: Du erstellst zunächst eine Prädiktormatrix, sodass jede Variable mit den Variablen imputiert wird, die am stärksten mit ihr korrelieren; anschließend übergibst du deine Prädiktormatrix an die Imputationsfunktion. Probieren wir diese einfache Modellauswahl aus!
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create predictor matrix with minimum correlation of 0.1
pred_mat <- ___(biopics, mincor = ___)