Ziehen aus der bedingten Verteilung

Ein einfaches predict() auf einem Modell liefert für gleiche Prädiktorwerte immer den gleichen Wert. Dadurch entsteht nur eine geringe Variabilität in den imputierten Daten. Um diese zu erhöhen – damit die Imputation die Variabilität der Originaldaten besser nachbildet –, können wir aus der bedingten Verteilung ziehen. Das bedeutet: Anstatt immer 1 vorherzusagen, sobald die vom Modell ausgegebene Wahrscheinlichkeit größer als 0,5 ist, ziehen wir die Vorhersage aus einer binomialverteilten Zufallsvariable, deren Parameter die vom Modell zurückgegebene Wahrscheinlichkeit ist.

Du arbeitest mit dem Code aus der vorherigen Übung. Die folgende Zeile wurde entfernt:

  preds <- ifelse(preds >= 0.5, 1, 0)

Deine Aufgabe ist es, diese Stelle durch ein Ziehen aus einer Binomialverteilung zu ersetzen. Das ist nur eine einzige Codezeile!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Anleitung zur Übung

Überschreibe preds, indem du aus einer Binomialverteilung samplest.
Übergib die Länge von preds als erstes Argument.
Setze size auf 1.
Setze prob auf die vom Modell zurückgegebenen Wahrscheinlichkeiten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

 impute_logreg <- function(df, formula) {
  # Extract name of response variable
  imp_var <- as.character(formula[2])
  # Save locations where the response is missing
  missing_imp_var <- is.na(df[imp_var])
  # Fit logistic regression mode
  logreg_model <- glm(formula, data = df, family = binomial)
  # Predict the response
  preds <- predict(logreg_model, type = "response")
  # Sample the predictions from binomial distribution
  preds <- ___(___, size = ___, prob = ___)
  # Impute missing values with predictions
  df[missing_imp_var, imp_var] <- preds[missing_imp_var]
  return(df)
}

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel findest du heraus, warum fehlende Daten ein Risiko bei der Analyse eines Datensatzes darstellen können. Du lernst die drei Mechanismen fehlender Daten kennen und erfährst, wie du sie mit statistischen Tests und Visualisierungstools erkennst.

Exercise 1: Fehlende Daten: Was kann schiefgehen Exercise 2: Lineare Regression mit unvollständigen Daten Exercise 3: Regressionsausgabe analysieren Exercise 4: Modelle vergleichen Exercise 5: Mechanismen fehlender Daten Exercise 6: Fehlende-Daten-Mechanismen erkennen Exercise 7: t-test für MAR: Datenaufbereitung Exercise 8: t-test für MAR: Interpretation Exercise 9: Fehlende Datenmuster visualisieren Exercise 10: Aggregations-Plot Exercise 11: Spine-Plot Exercise 12: Mosaikdiagramm

Lerne die Taxonomie der Imputationsmethoden kennen und drei spenderbasierte Techniken: Mittelwert-, Hot-Deck- und k-Nearest-Neighbors-Imputation. Du wirfst einen Blick unter die Haube, um zu sehen, wie diese Methoden funktionieren, bevor du lernst, wie du sie auf einen realen Datensatz zu tropischem Wetter anwendest. Unterwegs entdeckst du außerdem nützliche Tricks, mit denen du sie für deine Aufgaben noch besser einsetzen kannst.

Exercise 1: Mittelwertimputation Exercise 2: Die Gefahr der Mittelwertimputation erkennen Exercise 3: Mittelwert-Imputation der Temperatur Exercise 4: Imputationsqualität mit Margin-Plot beurteilen Exercise 5: Hot-Deck-Imputation Exercise 6: Vanilla Hot-Deck Exercise 7: Hot-Deck: Tricks & Tipps I – Imputieren innerhalb von Domänen Exercise 8: Hot-Deck: Tipps & Tricks II – Sortieren nach korrelierten Variablen Exercise 9: k-Nearest-Neighbors-Imputation Exercise 10: Die Anzahl der Nachbarn wählen Exercise 11: kNN Tipps & Tricks I: Spender gewichten Exercise 12: kNN Tipps & Tricks II: Variablen sortieren

Jetzt lernst du, wie du statistische und Machine-Learning-Modelle wie lineare Regression, logistische Regression und Random Forests zur Imputation fehlender Daten nutzt. In diesem Kapitel schaust du dir an, wie die Modelle ihre Vorhersagen treffen, und nutzt dieses Wissen, um die imputierten Werte aus konditionalen Verteilungen zu ziehen. Das ist wichtig, weil es deine Imputationen vielfältiger und plausibler macht – und damit den echten Daten ähnlicher.

Exercise 1: Modellbasierter Imputationsansatz Exercise 2: Imputation mit linearer Regression Exercise 3: Fehlende Werte initialisieren & über Variablen iterieren Exercise 4: Konvergenz erkennen Exercise 5: Datenvariabilität nachbilden Exercise 6: Imputation mit logistischer Regression Exercise 7: Ziehen aus der bedingten Verteilung

Aktuelle Übung

Exercise 8: Modellbasierte Imputation mit mehreren Variablentypen Exercise 9: Baumbasierte Imputation Exercise 10: Imputieren mit Random Forests Exercise 11: Variablenweise Imputationsfehler Exercise 12: Abwägung zwischen Geschwindigkeit und Genauigkeit

Imputierte Werte sind nicht in Stein gemeißelt. Es sind Schätzwerte, und Schätzungen gehen mit Unsicherheit einher. In diesem letzten Kapitel entdeckst du, wie Bootstrapping und verkettete Gleichungen mit dem Paket mice verwendet werden können, um die Imputationsunsicherheit in deine Modelle und Analysen zu integrieren und sie dadurch verlässlicher und robuster zu machen.

Exercise 1: Multiple Imputation mit Bootstrapping Exercise 2: Imputation und Modellierung in einer Funktion kapseln Exercise 3: Den Bootstrap ausführen Exercise 4: Konfidenzintervalle per Bootstrapping Exercise 5: Multiple Imputation mit verketteten Gleichungen Exercise 6: Der mice‑Flow: mice - with - pool Exercise 7: Standardmodelle auswählen Exercise 8: Verwendung der Prädiktormatrix Exercise 9: Alles zusammenführen Exercise 10: Fehlendheitsmuster analysieren Exercise 11: Imputing and inspecting outcomes Exercise 12: Schlussfolgern mit imputierten Daten Exercise 13: Abschlussbemerkungen