Modellbasierte Imputation mit mehreren Variablentypen
Super Arbeit bei der Funktion zur logistischen Regression mit Ziehen aus der bedingten Verteilung. Das ist ziemlich fortgeschrittene Statistik, die du da programmiert hast! In dieser Übung kombinierst du dein bisheriges Wissen zur modellbasierten Imputation, um verschiedene Variablentypen in den tao-Daten zu imputieren.
Deine Aufgabe ist es, wie im vorherigen Kapitel über Variablen zu iterieren und zwei Variablen zu imputieren:
is_hot, eine neue binäre Variable, die ausair_temperstellt wurde, ist 1, wennair_tempmindestens 26 Grad beträgt, und sonst 0;humidity, eine stetige Variable, die dir bereits vertraut ist.
Du wirst sowohl die Funktion zur linearen Regression verwenden, die du zuvor gelernt hast, als auch deine eigene Funktion für die logistische Regression. Los geht’s!
Diese Übung ist Teil des Kurses
Fehlende Daten mit Imputationen in R behandeln
Anleitung zur Übung
- Setze
is_hotan den Stellen aufNA, an denen es ursprünglich fehlte. - Imputiere
is_hotmit logistischer Regression, verwendesea_surface_tempals einzigen Prädiktor; nutze deine Funktionimpute_logreg(). - Setze
humidityan den Stellen aufNA, an denen es ursprünglich fehlte. - Imputiere
humiditymit linearer Regression, verwendesea_surface_tempundair_tempals Prädiktoren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)
# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp
for (i in 1:3) {
# Set is_hot to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ ___)
# Set humidity to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}