Imputation und Modellierung in einer Funktion kapseln

Immer wenn du Analysen oder Modellierung mit imputierten Daten durchführst, solltest du die Unsicherheit aus der Imputation berücksichtigen. Ein Modell nur einmal auf einem imputierten Datensatz laufen zu lassen, ignoriert, dass fehlende Werte bei der Imputation nur mit Unsicherheit geschätzt werden. Standardfehler solcher Modelle fallen oft zu klein aus. Die Lösung ist die multiple Imputation, und eine Möglichkeit, sie umzusetzen, ist Bootstrapping.

In den kommenden Übungen arbeitest du wieder mit den biopics-Daten. Ziel ist es, mithilfe multipler Imputation via Bootstrapping und linearer Regression zu prüfen, ob biografische Filme mit Frauen in der Hauptrolle weniger einspielen als solche über Männer.

Lass uns damit beginnen, eine Funktion zu schreiben, die eine Bootstrap-Stichprobe erzeugt, sie imputiert und ein lineares Regressionsmodell fitted.

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Anleitung zur Übung

Slice data, um die durch indices angegebenen Zeilen erneut zu ziehen, und weise das Ergebnis data_boot zu.
Imputiere die Bootstrap-Stichprobe data_boot mit kNN-Imputation unter Verwendung von 5 Nachbarn und weise das Ergebnis data_imp zu.
Fitte ein lineares Regressionsmodell auf data_imp, das earnings mit sub_sex, sub_type und year erklärt.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

calc_gender_coef <- function(data, indices) {
  # Get bootstrap sample
  data_boot <- data[___, ]
  # Impute with kNN imputation
  data_imp <- ___
  # Fit linear regression
  linear_model <- ___
  # Extract and return gender coefficient
  gender_coefficient <- coef(linear_model)[2]
  return(gender_coefficient)
}

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel findest du heraus, warum fehlende Daten ein Risiko bei der Analyse eines Datensatzes darstellen können. Du lernst die drei Mechanismen fehlender Daten kennen und erfährst, wie du sie mit statistischen Tests und Visualisierungstools erkennst.

Exercise 1: Fehlende Daten: Was kann schiefgehen Exercise 2: Lineare Regression mit unvollständigen Daten Exercise 3: Regressionsausgabe analysieren Exercise 4: Modelle vergleichen Exercise 5: Mechanismen fehlender Daten Exercise 6: Fehlende-Daten-Mechanismen erkennen Exercise 7: t-test für MAR: Datenaufbereitung Exercise 8: t-test für MAR: Interpretation Exercise 9: Fehlende Datenmuster visualisieren Exercise 10: Aggregations-Plot Exercise 11: Spine-Plot Exercise 12: Mosaikdiagramm

Lerne die Taxonomie der Imputationsmethoden kennen und drei spenderbasierte Techniken: Mittelwert-, Hot-Deck- und k-Nearest-Neighbors-Imputation. Du wirfst einen Blick unter die Haube, um zu sehen, wie diese Methoden funktionieren, bevor du lernst, wie du sie auf einen realen Datensatz zu tropischem Wetter anwendest. Unterwegs entdeckst du außerdem nützliche Tricks, mit denen du sie für deine Aufgaben noch besser einsetzen kannst.

Exercise 1: Mittelwertimputation Exercise 2: Die Gefahr der Mittelwertimputation erkennen Exercise 3: Mittelwert-Imputation der Temperatur Exercise 4: Imputationsqualität mit Margin-Plot beurteilen Exercise 5: Hot-Deck-Imputation Exercise 6: Vanilla Hot-Deck Exercise 7: Hot-Deck: Tricks & Tipps I – Imputieren innerhalb von Domänen Exercise 8: Hot-Deck: Tipps & Tricks II – Sortieren nach korrelierten Variablen Exercise 9: k-Nearest-Neighbors-Imputation Exercise 10: Die Anzahl der Nachbarn wählen Exercise 11: kNN Tipps & Tricks I: Spender gewichten Exercise 12: kNN Tipps & Tricks II: Variablen sortieren

Jetzt lernst du, wie du statistische und Machine-Learning-Modelle wie lineare Regression, logistische Regression und Random Forests zur Imputation fehlender Daten nutzt. In diesem Kapitel schaust du dir an, wie die Modelle ihre Vorhersagen treffen, und nutzt dieses Wissen, um die imputierten Werte aus konditionalen Verteilungen zu ziehen. Das ist wichtig, weil es deine Imputationen vielfältiger und plausibler macht – und damit den echten Daten ähnlicher.

Exercise 1: Modellbasierter Imputationsansatz Exercise 2: Imputation mit linearer Regression Exercise 3: Fehlende Werte initialisieren & über Variablen iterieren Exercise 4: Konvergenz erkennen Exercise 5: Datenvariabilität nachbilden Exercise 6: Imputation mit logistischer Regression Exercise 7: Ziehen aus der bedingten Verteilung Exercise 8: Modellbasierte Imputation mit mehreren Variablentypen Exercise 9: Baumbasierte Imputation Exercise 10: Imputieren mit Random Forests Exercise 11: Variablenweise Imputationsfehler Exercise 12: Abwägung zwischen Geschwindigkeit und Genauigkeit

Imputierte Werte sind nicht in Stein gemeißelt. Es sind Schätzwerte, und Schätzungen gehen mit Unsicherheit einher. In diesem letzten Kapitel entdeckst du, wie Bootstrapping und verkettete Gleichungen mit dem Paket mice verwendet werden können, um die Imputationsunsicherheit in deine Modelle und Analysen zu integrieren und sie dadurch verlässlicher und robuster zu machen.

Exercise 1: Multiple Imputation mit Bootstrapping Exercise 2: Imputation und Modellierung in einer Funktion kapseln

Aktuelle Übung

Exercise 3: Den Bootstrap ausführen Exercise 4: Konfidenzintervalle per Bootstrapping Exercise 5: Multiple Imputation mit verketteten Gleichungen Exercise 6: Der mice‑Flow: mice - with - pool Exercise 7: Standardmodelle auswählen Exercise 8: Verwendung der Prädiktormatrix Exercise 9: Alles zusammenführen Exercise 10: Fehlendheitsmuster analysieren Exercise 11: Imputing and inspecting outcomes Exercise 12: Schlussfolgern mit imputierten Daten Exercise 13: Abschlussbemerkungen