Gruppierte Zusammenfassungen der Fehlendheit erstellen

Jetzt, da du nabulare Daten erstellen kannst, nutzen wir sie zur Exploration. Wir berechnen Kennzahlen, basierend auf der Fehlendheit einer anderen Variable.

Dazu verwenden wir folgende Schritte:

Zuerst wandelt bind_shadow() die Daten in nabulare Daten um.
Als Nächstes erstellst du Zusammenfassungen mit group_by() und summarize(), um Mittelwert und Standardabweichung mit den Funktionen mean() und sd() zu berechnen.

Diese Übung ist Teil des Kurses

<Kurs>Umgang mit fehlenden Daten in R</Kurs>

Übungsanweisungen

Für den Datensatz oceanbuoys:
bind_shadow() ausführen, dann mit group_by() nach der Fehlendheit von humidity (humidity_NA) gruppieren und mit summarize() aus dplyr die Mittelwerte und Standardabweichungen für Wind Ost–West (wind_ew) berechnen.
Wiederhole dies, aber berechne die Zusammenfassungen für Wind Nord–Süd (wind_ns).

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# `bind_shadow()` and `group_by()` humidity missingness (`humidity_NA`)
oceanbuoys %>%
  ___() %>%
  group_by(___) %>% 
  summarize(wind_ew_mean = mean(___), # calculate mean of wind_ew
            wind_ew_sd = ___)) # calculate standard deviation of wind_ew
  
# Repeat this, but calculating summaries for wind north south (`wind_ns`).
___ %>%
  ___ %>%
  group_by(___) %>%
  summarize(___ = ___(___),
            ___ = ___(___))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Umgang mit fehlenden Daten in R</Kurs>

Geringe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 führt dich in fehlende Daten ein: Was sind fehlende Werte, wie verhalten sie sich in R, wie erkennt man sie und wie zählt man sie? Anschließend lernst du Übersichten zu fehlenden Daten kennen und wie man Missingness über Fälle, Variablen und innerhalb von Gruppen im Datensatz zusammenfasst und untersucht. Schließlich besprechen wir Visualisierungen zu fehlenden Daten: wie du Übersichtsplots für den gesamten Datensatz sowie über Variablen, Fälle und weitere Zusammenfassungen erstellst und wie du diese gruppenweise explorierst.

Exercise 1: Einführung in fehlende Daten Exercise 2: Fehlende Werte verwenden und finden Exercise 3: Wie viele fehlende Werte gibt es?Exercise 4: Mit fehlenden Werten arbeiten Exercise 5: Warum sind fehlende Werte wichtig?Exercise 6: Fehlwerte zusammenfassen Exercise 7: Fehlwerte tabellieren Exercise 8: Weitere Zusammenfassungen von Missingness Exercise 9: Wie visualisieren wir fehlende Werte?Exercise 10: Deine erste Visualisierung fehlender Daten Exercise 11: Fehlende Fälle und Variablen visualisieren Exercise 12: Fehlermuster visualisieren

In Kapitel 2 lernst du, versteckte fehlende Werte wie „missing“ oder „N/A“ zu erkennen und durch `NA` zu ersetzen. Du lernst, wie du implizit fehlende Werte effizient behandelst – also Werte, die als fehlend gelten, aber nicht explizit aufgeführt sind. Außerdem behandeln wir die Abhängigkeit fehlender Daten und besprechen Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR) und was diese Konzepte für deine Datenanalyse bedeuten.

Exercise 1: Fehlende Werte suchen und ersetzen Exercise 2: miss_scan_count verwenden Exercise 3: replace_with_na verwenden Exercise 4: Verwendung der scoped Variants von replace_with_na Exercise 5: Fehlende Werte nach unten ausfüllen Exercise 6: Implizite Fehlwerte mit complete() beheben Exercise 7: Explizite fehlende Werte mit fill() beheben Exercise 8: complete() und fill() zusammen verwenden Exercise 9: Abhängigkeit fehlender Daten Exercise 10: Unterschiede zwischen MCAR und MAR Exercise 11: Abhängigkeiten von Fehlwerten erkunden Exercise 12: Missingness-Abhängigkeiten weiter untersuchen

In diesem Kapitel lernst du Workflows für die Arbeit mit fehlenden Daten kennen. Wir führen spezielle Datenstrukturen ein – die Shadow-Matrix und nabulare Daten – und zeigen, wie du sie in Workflows zur Exploration fehlender Daten nutzt, sodass du Zusammenfassungen der Missingness wieder mit den Werten im Datensatz verknüpfen kannst. Du lernst, wie du mit ggplot explorierst und visualisierst, wie sich Werte verändern, wenn andere Variablen fehlen. Schließlich lernst du, wie man Missingness über zwei Variablen visualisiert und wie und warum man fehlende Werte in einem Streudiagramm darstellt.

Exercise 1: Werkzeuge zur Untersuchung der Abhängigkeit fehlender Daten Exercise 2: Shadow-Matrix-Daten erzeugen Exercise 3: Gruppierte Zusammenfassungen der Fehlendheit erstellen

Aktuelle Übung

Exercise 4: Weitere Kombinationen von Missingness erkunden Exercise 5: Fehlwerte über eine Variable hinweg visualisieren Exercise 6: Nabular-Daten und Füllen nach Fehlwerten Exercise 7: Nabular-Daten und nach Missingness zusammenfassen Exercise 8: Variation nach Fehlwerten untersuchen: Boxplots Exercise 9: Fehlwerte über zwei Variablen visualisieren Exercise 10: Fehlende Daten mit Streudiagrammen erkunden Exercise 11: Mit Facets fehlende Werte erkunden Exercise 12: Faceting zur Untersuchung von Missingness (mehrere Plots)

In diesem Kapitel lernst du, wie du fehlende Werte in deinen Daten auffüllst – das nennt man Imputation. Du lernst, wie du imputierst und fehlende Werte nachverfolgst, und welche guten und schlechten Eigenschaften Imputationen haben, damit du die imputierten Daten gegenüber den Originalwerten explorieren, visualisieren und bewerten kannst. Außerdem lernst du, wie du verschiedene Imputationsmodelle nutzt, bewertest und vergleichst und wie unterschiedliche Imputationsmodelle die Schlussfolgerungen beeinflussen, die du aus den Modellen ziehen kannst.

Exercise 1: Lücken füllen Exercise 2: Daten unterhalb des Wertebereichs mit Nabular-Daten imputieren Exercise 3: Imputierte Werte in einem Streudiagramm visualisieren Exercise 4: Histogramm der imputierten Daten erstellen Exercise 5: Was macht eine gute Imputation aus Exercise 6: Schlechte Imputationen bewerten Exercise 7: Imputationen bewerten: Die Skalierung Exercise 8: Imputationen bewerten: Über viele Variablen hinweg Exercise 9: Imputationen durchführen Exercise 10: Daten mit simputation imputieren Exercise 11: Imputationen bewerten und vergleichen Exercise 12: Imputationen bewerten (viele Modelle & Variablen)Exercise 13: Imputationen und Modelle bewerten Exercise 14: Viele Imputationsmodelle kombinieren und vergleichen Exercise 15: Die Modellparameter vergleichen und bewerten Exercise 16: Abschließende Lektion