Imputationen bewerten (viele Modelle & Variablen)

Wenn du ein Imputationsmodell erstellst, ist es eine gute Idee, es mit einer anderen Methode zu vergleichen.

In dieser Lektion fügst du ein letztes Imputationsmodell hinzu, das ein zusätzliches nützliches Merkmal enthält, das einen Teil der Variation in den Daten erklärt. Anschließend vergleichst du die Werte – so wie in der letzten Lektion.

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Anleitung zur Übung

Verwende den Datensatz oceanbuoys:

Imputiere Daten mit impute_lm() und füge year zum Modell hinzu.
Fasse die Imputationsmethoden zusammen, wobei ocean_imp_mean in mean, ocean_imp_lm_wind in lm_wind und ocean_imp_lm_wind_year in lm_wind_year überführt wird.
Betrachte die Werte von air_temp_c (auf der x-Achse) und humidity (auf der y-Achse), färbe nach vorhandenen Missings und facettiere nach Imputationsmodell.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Build a model adding year to the outcome
ocean_imp_lm_wind_year <- bind_shadow(___) %>%
  impute_lm(air_temp_c ~ wind_ew + wind_ns + ___) %>%
  impute_lm(humidity ~ wind_ew + wind_ns + ___) %>%
  add_label_shadow()

# Bind the mean, lm_wind, and lm_wind_year models together
bound_models <- bind_rows(mean = ocean_imp_mean,
                          lm_wind = ocean_imp_lm_wind,
                          lm_wind_year = ___,
                          .id = "imp_model")

# Explore air_temp and humidity, coloring by any missings, and faceting by imputation model
ggplot(___, aes(x = ___, y = ___, color = any_missing)) + 
  geom_point() + facet_wrap(~___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Geringe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 führt dich in fehlende Daten ein: Was sind fehlende Werte, wie verhalten sie sich in R, wie erkennt man sie und wie zählt man sie? Anschließend lernst du Übersichten zu fehlenden Daten kennen und wie man Missingness über Fälle, Variablen und innerhalb von Gruppen im Datensatz zusammenfasst und untersucht. Schließlich besprechen wir Visualisierungen zu fehlenden Daten: wie du Übersichtsplots für den gesamten Datensatz sowie über Variablen, Fälle und weitere Zusammenfassungen erstellst und wie du diese gruppenweise explorierst.

Exercise 1: Einführung in fehlende Daten Exercise 2: Fehlende Werte verwenden und finden Exercise 3: Wie viele fehlende Werte gibt es?Exercise 4: Mit fehlenden Werten arbeiten Exercise 5: Warum sind fehlende Werte wichtig?Exercise 6: Fehlwerte zusammenfassen Exercise 7: Fehlwerte tabellieren Exercise 8: Weitere Zusammenfassungen von Missingness Exercise 9: Wie visualisieren wir fehlende Werte?Exercise 10: Deine erste Visualisierung fehlender Daten Exercise 11: Fehlende Fälle und Variablen visualisieren Exercise 12: Fehlermuster visualisieren

In Kapitel 2 lernst du, versteckte fehlende Werte wie „missing“ oder „N/A“ zu erkennen und durch `NA` zu ersetzen. Du lernst, wie du implizit fehlende Werte effizient behandelst – also Werte, die als fehlend gelten, aber nicht explizit aufgeführt sind. Außerdem behandeln wir die Abhängigkeit fehlender Daten und besprechen Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR) und was diese Konzepte für deine Datenanalyse bedeuten.

Exercise 1: Fehlende Werte suchen und ersetzen Exercise 2: miss_scan_count verwenden Exercise 3: replace_with_na verwenden Exercise 4: Verwendung der scoped Variants von replace_with_na Exercise 5: Fehlende Werte nach unten ausfüllen Exercise 6: Implizite Fehlwerte mit complete() beheben Exercise 7: Explizite fehlende Werte mit fill() beheben Exercise 8: complete() und fill() zusammen verwenden Exercise 9: Abhängigkeit fehlender Daten Exercise 10: Unterschiede zwischen MCAR und MAR Exercise 11: Abhängigkeiten von Fehlwerten erkunden Exercise 12: Missingness-Abhängigkeiten weiter untersuchen

In diesem Kapitel lernst du Workflows für die Arbeit mit fehlenden Daten kennen. Wir führen spezielle Datenstrukturen ein – die Shadow-Matrix und nabulare Daten – und zeigen, wie du sie in Workflows zur Exploration fehlender Daten nutzt, sodass du Zusammenfassungen der Missingness wieder mit den Werten im Datensatz verknüpfen kannst. Du lernst, wie du mit ggplot explorierst und visualisierst, wie sich Werte verändern, wenn andere Variablen fehlen. Schließlich lernst du, wie man Missingness über zwei Variablen visualisiert und wie und warum man fehlende Werte in einem Streudiagramm darstellt.

Exercise 1: Werkzeuge zur Untersuchung der Abhängigkeit fehlender Daten Exercise 2: Shadow-Matrix-Daten erzeugen Exercise 3: Gruppierte Zusammenfassungen der Fehlendheit erstellen Exercise 4: Weitere Kombinationen von Missingness erkunden Exercise 5: Fehlwerte über eine Variable hinweg visualisieren Exercise 6: Nabular-Daten und Füllen nach Fehlwerten Exercise 7: Nabular-Daten und nach Missingness zusammenfassen Exercise 8: Variation nach Fehlwerten untersuchen: Boxplots Exercise 9: Fehlwerte über zwei Variablen visualisieren Exercise 10: Fehlende Daten mit Streudiagrammen erkunden Exercise 11: Mit Facets fehlende Werte erkunden Exercise 12: Faceting zur Untersuchung von Missingness (mehrere Plots)

In diesem Kapitel lernst du, wie du fehlende Werte in deinen Daten auffüllst – das nennt man Imputation. Du lernst, wie du imputierst und fehlende Werte nachverfolgst, und welche guten und schlechten Eigenschaften Imputationen haben, damit du die imputierten Daten gegenüber den Originalwerten explorieren, visualisieren und bewerten kannst. Außerdem lernst du, wie du verschiedene Imputationsmodelle nutzt, bewertest und vergleichst und wie unterschiedliche Imputationsmodelle die Schlussfolgerungen beeinflussen, die du aus den Modellen ziehen kannst.

Exercise 1: Lücken füllen Exercise 2: Daten unterhalb des Wertebereichs mit Nabular-Daten imputieren Exercise 3: Imputierte Werte in einem Streudiagramm visualisieren Exercise 4: Histogramm der imputierten Daten erstellen Exercise 5: Was macht eine gute Imputation aus Exercise 6: Schlechte Imputationen bewerten Exercise 7: Imputationen bewerten: Die Skalierung Exercise 8: Imputationen bewerten: Über viele Variablen hinweg Exercise 9: Imputationen durchführen Exercise 10: Daten mit simputation imputieren Exercise 11: Imputationen bewerten und vergleichen Exercise 12: Imputationen bewerten (viele Modelle & Variablen)

Aktuelle Übung

Exercise 13: Imputationen und Modelle bewerten Exercise 14: Viele Imputationsmodelle kombinieren und vergleichen Exercise 15: Die Modellparameter vergleichen und bewerten Exercise 16: Abschließende Lektion