Imputation mit logistischer Regression

Eine beliebte Methode zur Imputation binärer Variablen ist die logistische Regression. Leider gibt es keine Funktion ähnlich wie impute_lm(), die das übernimmt. Deshalb schreibst du so eine Funktion selbst!

Nennen wir die Funktion impute_logreg(). Das erste Argument ist ein Data Frame df, dessen fehlende Werte initialisiert wurden und nur in der zu imputierenden Spalte fehlen. Das zweite Argument ist eine formula für das logistische Regressionsmodell.

Die Funktion soll Folgendes tun:

Positionen der fehlenden Werte merken.
Das Modell erstellen.
Vorhersagen erzeugen.
Fehlende Werte durch Vorhersagen ersetzen.

Mach dir keine Sorgen um die Zeile, die imp_var erzeugt – das ist nur eine Möglichkeit, den Namen der zu imputierenden Spalte aus der Formel zu extrahieren. Los geht’s mit etwas funktionaler Programmierung!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Anleitung zur Übung

Erstelle eine boolesche Maske für die fehlenden Werte in df[imp_var] und weise sie missing_imp_var zu.
Fitte ein logistisches Regressionsmodell mit der Formel und den Daten, die die Funktion als Argumente erhält, und denke daran, die richtige family zu setzen, damit eine logistische Regression gefittet wird (ohne Anführungszeichen übergeben); weise das Modell logreg_model zu.
Sage die Zielvariable mit dem Modell voraus und weise sie preds zu; achte darauf, den passenden Vorhersage-type zu setzen.
Nutze preds zusammen mit missing_imp_var, um fehlende Werte zu imputieren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

impute_logreg <- function(df, formula) {
  # Extract name of response variable
  imp_var <- as.character(formula[2])
  # Save locations where the response is missing
  missing_imp_var <- ___
  # Fit logistic regression mode
  logreg_model <- ___(___, data = ___, family = ___)
  # Predict the response and convert it to 0s and 1s
  preds <- predict(___, type = ___)
  preds <- ifelse(preds >= 0.5, 1, 0)
  # Impute missing values with predictions
  df[missing_imp_var, imp_var] <-___[___]
  return(df)
}

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel findest du heraus, warum fehlende Daten ein Risiko bei der Analyse eines Datensatzes darstellen können. Du lernst die drei Mechanismen fehlender Daten kennen und erfährst, wie du sie mit statistischen Tests und Visualisierungstools erkennst.

Exercise 1: Fehlende Daten: Was kann schiefgehen Exercise 2: Lineare Regression mit unvollständigen Daten Exercise 3: Regressionsausgabe analysieren Exercise 4: Modelle vergleichen Exercise 5: Mechanismen fehlender Daten Exercise 6: Fehlende-Daten-Mechanismen erkennen Exercise 7: t-test für MAR: Datenaufbereitung Exercise 8: t-test für MAR: Interpretation Exercise 9: Fehlende Datenmuster visualisieren Exercise 10: Aggregations-Plot Exercise 11: Spine-Plot Exercise 12: Mosaikdiagramm

Lerne die Taxonomie der Imputationsmethoden kennen und drei spenderbasierte Techniken: Mittelwert-, Hot-Deck- und k-Nearest-Neighbors-Imputation. Du wirfst einen Blick unter die Haube, um zu sehen, wie diese Methoden funktionieren, bevor du lernst, wie du sie auf einen realen Datensatz zu tropischem Wetter anwendest. Unterwegs entdeckst du außerdem nützliche Tricks, mit denen du sie für deine Aufgaben noch besser einsetzen kannst.

Exercise 1: Mittelwertimputation Exercise 2: Die Gefahr der Mittelwertimputation erkennen Exercise 3: Mittelwert-Imputation der Temperatur Exercise 4: Imputationsqualität mit Margin-Plot beurteilen Exercise 5: Hot-Deck-Imputation Exercise 6: Vanilla Hot-Deck Exercise 7: Hot-Deck: Tricks & Tipps I – Imputieren innerhalb von Domänen Exercise 8: Hot-Deck: Tipps & Tricks II – Sortieren nach korrelierten Variablen Exercise 9: k-Nearest-Neighbors-Imputation Exercise 10: Die Anzahl der Nachbarn wählen Exercise 11: kNN Tipps & Tricks I: Spender gewichten Exercise 12: kNN Tipps & Tricks II: Variablen sortieren

Jetzt lernst du, wie du statistische und Machine-Learning-Modelle wie lineare Regression, logistische Regression und Random Forests zur Imputation fehlender Daten nutzt. In diesem Kapitel schaust du dir an, wie die Modelle ihre Vorhersagen treffen, und nutzt dieses Wissen, um die imputierten Werte aus konditionalen Verteilungen zu ziehen. Das ist wichtig, weil es deine Imputationen vielfältiger und plausibler macht – und damit den echten Daten ähnlicher.

Exercise 1: Modellbasierter Imputationsansatz Exercise 2: Imputation mit linearer Regression Exercise 3: Fehlende Werte initialisieren & über Variablen iterieren Exercise 4: Konvergenz erkennen Exercise 5: Datenvariabilität nachbilden Exercise 6: Imputation mit logistischer Regression

Aktuelle Übung

Exercise 7: Ziehen aus der bedingten Verteilung Exercise 8: Modellbasierte Imputation mit mehreren Variablentypen Exercise 9: Baumbasierte Imputation Exercise 10: Imputieren mit Random Forests Exercise 11: Variablenweise Imputationsfehler Exercise 12: Abwägung zwischen Geschwindigkeit und Genauigkeit

Imputierte Werte sind nicht in Stein gemeißelt. Es sind Schätzwerte, und Schätzungen gehen mit Unsicherheit einher. In diesem letzten Kapitel entdeckst du, wie Bootstrapping und verkettete Gleichungen mit dem Paket mice verwendet werden können, um die Imputationsunsicherheit in deine Modelle und Analysen zu integrieren und sie dadurch verlässlicher und robuster zu machen.

Exercise 1: Multiple Imputation mit Bootstrapping Exercise 2: Imputation und Modellierung in einer Funktion kapseln Exercise 3: Den Bootstrap ausführen Exercise 4: Konfidenzintervalle per Bootstrapping Exercise 5: Multiple Imputation mit verketteten Gleichungen Exercise 6: Der mice‑Flow: mice - with - pool Exercise 7: Standardmodelle auswählen Exercise 8: Verwendung der Prädiktormatrix Exercise 9: Alles zusammenführen Exercise 10: Fehlendheitsmuster analysieren Exercise 11: Imputing and inspecting outcomes Exercise 12: Schlussfolgern mit imputierten Daten Exercise 13: Abschlussbemerkungen