LoslegenKostenlos loslegen

Modellbasierte Imputation mit mehreren Variablentypen

Super Arbeit bei der Funktion zur logistischen Regression mit Ziehen aus der bedingten Verteilung. Das ist ziemlich fortgeschrittene Statistik, die du da programmiert hast! In dieser Übung kombinierst du dein bisheriges Wissen zur modellbasierten Imputation, um verschiedene Variablentypen in den tao-Daten zu imputieren.

Deine Aufgabe ist es, wie im vorherigen Kapitel über Variablen zu iterieren und zwei Variablen zu imputieren:

  • is_hot, eine neue binäre Variable, die aus air_temp erstellt wurde, ist 1, wenn air_temp mindestens 26 Grad beträgt, und sonst 0;
  • humidity, eine stetige Variable, die dir bereits vertraut ist.

Du wirst sowohl die Funktion zur linearen Regression verwenden, die du zuvor gelernt hast, als auch deine eigene Funktion für die logistische Regression. Los geht’s!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Kurs anzeigen

Anleitung zur Übung

  • Setze is_hot an den Stellen auf NA, an denen es ursprünglich fehlte.
  • Imputiere is_hot mit logistischer Regression, verwende sea_surface_temp als einzigen Prädiktor; nutze deine Funktion impute_logreg().
  • Setze humidity an den Stellen auf NA, an denen es ursprünglich fehlte.
  • Imputiere humidity mit linearer Regression, verwende sea_surface_temp und air_temp als Prädiktoren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)

# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp

for (i in 1:3) {
  # Set is_hot to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ ___)
  # Set humidity to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}
Code bearbeiten und ausführen