Imputation und Modellierung in einer Funktion kapseln
Immer wenn du Analysen oder Modellierung mit imputierten Daten durchführst, solltest du die Unsicherheit aus der Imputation berücksichtigen. Ein Modell nur einmal auf einem imputierten Datensatz laufen zu lassen, ignoriert, dass fehlende Werte bei der Imputation nur mit Unsicherheit geschätzt werden. Standardfehler solcher Modelle fallen oft zu klein aus. Die Lösung ist die multiple Imputation, und eine Möglichkeit, sie umzusetzen, ist Bootstrapping.
In den kommenden Übungen arbeitest du wieder mit den biopics-Daten. Ziel ist es, mithilfe multipler Imputation via Bootstrapping und linearer Regression zu prüfen, ob biografische Filme mit Frauen in der Hauptrolle weniger einspielen als solche über Männer.
Lass uns damit beginnen, eine Funktion zu schreiben, die eine Bootstrap-Stichprobe erzeugt, sie imputiert und ein lineares Regressionsmodell fitted.
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Slice
data, um die durchindicesangegebenen Zeilen erneut zu ziehen, und weise das Ergebnisdata_bootzu. - Imputiere die Bootstrap-Stichprobe
data_bootmit kNN-Imputation unter Verwendung von 5 Nachbarn und weise das Ergebnisdata_impzu. - Fitte ein lineares Regressionsmodell auf
data_imp, dasearningsmitsub_sex,sub_typeundyearerklärt.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
calc_gender_coef <- function(data, indices) {
# Get bootstrap sample
data_boot <- data[___, ]
# Impute with kNN imputation
data_imp <- ___
# Fit linear regression
linear_model <- ___
# Extract and return gender coefficient
gender_coefficient <- coef(linear_model)[2]
return(gender_coefficient)
}