Imputationen bewerten: Über viele Variablen hinweg

Bisher haben wir uns angeschaut, wie einzelne Variablen oder Variablenpaare und deren imputierte Werte untersucht werden können. Manchmal möchtest du jedoch die Imputationen für viele Variablen betrachten. Dafür brauchst du etwas Data Munging und Umstrukturierung. In dieser Lektion lernst du, wie dieses Data Wrangling funktioniert – das kann in nabular-Daten etwas knifflig werden. Die Funktion shadow_long() bringt die Daten in die passende Form für solche Visualisierungen.

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Anleitung zur Übung

Verwende shadow_long(), um die imputierten Daten ocean_imp_mean zu sammeln, mit Fokus auf humidity und air_temp_c.
Gib die Daten aus und inspiziere sie.
Erkunde die Imputationen in einem Histogramm mit geom_histogram(), platziere die Werte auf der x-Achse, fülle nach Missingness und facettiere nach variable.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Gather the imputed data 
ocean_imp_mean_gather <- shadow_long(___,
                                     ___,
                                     ___))
# Inspect the data
___

# Explore the imputations in a histogram 
ggplot(ocean_imp_mean_gather, 
       aes(x = value, fill = value_NA)) + 
  geom_histogram() + 
  facet_wrap(~variable)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Geringe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 führt dich in fehlende Daten ein: Was sind fehlende Werte, wie verhalten sie sich in R, wie erkennt man sie und wie zählt man sie? Anschließend lernst du Übersichten zu fehlenden Daten kennen und wie man Missingness über Fälle, Variablen und innerhalb von Gruppen im Datensatz zusammenfasst und untersucht. Schließlich besprechen wir Visualisierungen zu fehlenden Daten: wie du Übersichtsplots für den gesamten Datensatz sowie über Variablen, Fälle und weitere Zusammenfassungen erstellst und wie du diese gruppenweise explorierst.

Exercise 1: Einführung in fehlende Daten Exercise 2: Fehlende Werte verwenden und finden Exercise 3: Wie viele fehlende Werte gibt es?Exercise 4: Mit fehlenden Werten arbeiten Exercise 5: Warum sind fehlende Werte wichtig?Exercise 6: Fehlwerte zusammenfassen Exercise 7: Fehlwerte tabellieren Exercise 8: Weitere Zusammenfassungen von Missingness Exercise 9: Wie visualisieren wir fehlende Werte?Exercise 10: Deine erste Visualisierung fehlender Daten Exercise 11: Fehlende Fälle und Variablen visualisieren Exercise 12: Fehlermuster visualisieren

In Kapitel 2 lernst du, versteckte fehlende Werte wie „missing“ oder „N/A“ zu erkennen und durch `NA` zu ersetzen. Du lernst, wie du implizit fehlende Werte effizient behandelst – also Werte, die als fehlend gelten, aber nicht explizit aufgeführt sind. Außerdem behandeln wir die Abhängigkeit fehlender Daten und besprechen Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR) und was diese Konzepte für deine Datenanalyse bedeuten.

Exercise 1: Fehlende Werte suchen und ersetzen Exercise 2: miss_scan_count verwenden Exercise 3: replace_with_na verwenden Exercise 4: Verwendung der scoped Variants von replace_with_na Exercise 5: Fehlende Werte nach unten ausfüllen Exercise 6: Implizite Fehlwerte mit complete() beheben Exercise 7: Explizite fehlende Werte mit fill() beheben Exercise 8: complete() und fill() zusammen verwenden Exercise 9: Abhängigkeit fehlender Daten Exercise 10: Unterschiede zwischen MCAR und MAR Exercise 11: Abhängigkeiten von Fehlwerten erkunden Exercise 12: Missingness-Abhängigkeiten weiter untersuchen

In diesem Kapitel lernst du Workflows für die Arbeit mit fehlenden Daten kennen. Wir führen spezielle Datenstrukturen ein – die Shadow-Matrix und nabulare Daten – und zeigen, wie du sie in Workflows zur Exploration fehlender Daten nutzt, sodass du Zusammenfassungen der Missingness wieder mit den Werten im Datensatz verknüpfen kannst. Du lernst, wie du mit ggplot explorierst und visualisierst, wie sich Werte verändern, wenn andere Variablen fehlen. Schließlich lernst du, wie man Missingness über zwei Variablen visualisiert und wie und warum man fehlende Werte in einem Streudiagramm darstellt.

Exercise 1: Werkzeuge zur Untersuchung der Abhängigkeit fehlender Daten Exercise 2: Shadow-Matrix-Daten erzeugen Exercise 3: Gruppierte Zusammenfassungen der Fehlendheit erstellen Exercise 4: Weitere Kombinationen von Missingness erkunden Exercise 5: Fehlwerte über eine Variable hinweg visualisieren Exercise 6: Nabular-Daten und Füllen nach Fehlwerten Exercise 7: Nabular-Daten und nach Missingness zusammenfassen Exercise 8: Variation nach Fehlwerten untersuchen: Boxplots Exercise 9: Fehlwerte über zwei Variablen visualisieren Exercise 10: Fehlende Daten mit Streudiagrammen erkunden Exercise 11: Mit Facets fehlende Werte erkunden Exercise 12: Faceting zur Untersuchung von Missingness (mehrere Plots)

In diesem Kapitel lernst du, wie du fehlende Werte in deinen Daten auffüllst – das nennt man Imputation. Du lernst, wie du imputierst und fehlende Werte nachverfolgst, und welche guten und schlechten Eigenschaften Imputationen haben, damit du die imputierten Daten gegenüber den Originalwerten explorieren, visualisieren und bewerten kannst. Außerdem lernst du, wie du verschiedene Imputationsmodelle nutzt, bewertest und vergleichst und wie unterschiedliche Imputationsmodelle die Schlussfolgerungen beeinflussen, die du aus den Modellen ziehen kannst.

Exercise 1: Lücken füllen Exercise 2: Daten unterhalb des Wertebereichs mit Nabular-Daten imputieren Exercise 3: Imputierte Werte in einem Streudiagramm visualisieren Exercise 4: Histogramm der imputierten Daten erstellen Exercise 5: Was macht eine gute Imputation aus Exercise 6: Schlechte Imputationen bewerten Exercise 7: Imputationen bewerten: Die Skalierung Exercise 8: Imputationen bewerten: Über viele Variablen hinweg

Aktuelle Übung

Exercise 9: Imputationen durchführen Exercise 10: Daten mit simputation imputieren Exercise 11: Imputationen bewerten und vergleichen Exercise 12: Imputationen bewerten (viele Modelle & Variablen)Exercise 13: Imputationen und Modelle bewerten Exercise 14: Viele Imputationsmodelle kombinieren und vergleichen Exercise 15: Die Modellparameter vergleichen und bewerten Exercise 16: Abschließende Lektion