Wie viele fehlende Werte gibt es?

Eines der ersten Dinge, die du bei einem neuen Datensatz prüfen solltest, ist, ob es fehlende Werte gibt und wie viele.

Du könntest are_na() verwenden und die fehlenden Werte zusammenzählen, aber der effizienteste Weg, fehlende Werte zu zählen, ist die Funktion n_miss(). Sie liefert dir die Gesamtzahl der fehlenden Werte in den Daten.

Anschließend kannst du mit der Funktion pct_miss den Anteil der fehlenden Werte im Datensatz ermitteln. Sie liefert dir den Prozentsatz der fehlenden Werte in den Daten.

Die Gegenstücke dazu — also wie viele vollständige Werte vorhanden sind — findest du mit n_complete und pct_complete.

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Anleitung zur Übung

Verwende den Beispiel-Dataframe mit Größen und Gewichten dat_hw:

Verwende n_miss() auf dem Dataframe dat_hw, um die Gesamtzahl der fehlenden Werte im Dataframe zu zählen.
Verwende n_miss() auf der Variable dat_hw$weight, um die Gesamtzahl der dort fehlenden Werte zu zählen.
Verwende analog prop_miss(), n_complete() und prop_complete(), um den Anteil fehlender Werte sowie die Anzahl und den Anteil vollständiger Werte für den Dataframe und die Variablen zu erhalten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Use n_miss() to count the total number of missing values in dat_hw
n_miss(___)

# Use n_miss() on dat_hw$weight to count the total number of missing values
n_miss(___$___)

# Use n_complete() on dat_hw to count the total number of complete values
n_complete(___)

# Use n_complete() on dat_hw$weight to count the total number of complete values
___(___$___)

# Use prop_miss() and prop_complete() on dat_hw to count the total number of missing values in each of the variables
prop_miss(____)
prop_complete(___)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Umgang mit fehlenden Daten in R

Geringe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Kapitel 1 führt dich in fehlende Daten ein: Was sind fehlende Werte, wie verhalten sie sich in R, wie erkennt man sie und wie zählt man sie? Anschließend lernst du Übersichten zu fehlenden Daten kennen und wie man Missingness über Fälle, Variablen und innerhalb von Gruppen im Datensatz zusammenfasst und untersucht. Schließlich besprechen wir Visualisierungen zu fehlenden Daten: wie du Übersichtsplots für den gesamten Datensatz sowie über Variablen, Fälle und weitere Zusammenfassungen erstellst und wie du diese gruppenweise explorierst.

Exercise 1: Einführung in fehlende Daten Exercise 2: Fehlende Werte verwenden und finden Exercise 3: Wie viele fehlende Werte gibt es?

Aktuelle Übung

Exercise 4: Mit fehlenden Werten arbeiten Exercise 5: Warum sind fehlende Werte wichtig?Exercise 6: Fehlwerte zusammenfassen Exercise 7: Fehlwerte tabellieren Exercise 8: Weitere Zusammenfassungen von Missingness Exercise 9: Wie visualisieren wir fehlende Werte?Exercise 10: Deine erste Visualisierung fehlender Daten Exercise 11: Fehlende Fälle und Variablen visualisieren Exercise 12: Fehlermuster visualisieren

In Kapitel 2 lernst du, versteckte fehlende Werte wie „missing“ oder „N/A“ zu erkennen und durch `NA` zu ersetzen. Du lernst, wie du implizit fehlende Werte effizient behandelst – also Werte, die als fehlend gelten, aber nicht explizit aufgeführt sind. Außerdem behandeln wir die Abhängigkeit fehlender Daten und besprechen Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR) und was diese Konzepte für deine Datenanalyse bedeuten.

Exercise 1: Fehlende Werte suchen und ersetzen Exercise 2: miss_scan_count verwenden Exercise 3: replace_with_na verwenden Exercise 4: Verwendung der scoped Variants von replace_with_na Exercise 5: Fehlende Werte nach unten ausfüllen Exercise 6: Implizite Fehlwerte mit complete() beheben Exercise 7: Explizite fehlende Werte mit fill() beheben Exercise 8: complete() und fill() zusammen verwenden Exercise 9: Abhängigkeit fehlender Daten Exercise 10: Unterschiede zwischen MCAR und MAR Exercise 11: Abhängigkeiten von Fehlwerten erkunden Exercise 12: Missingness-Abhängigkeiten weiter untersuchen

In diesem Kapitel lernst du Workflows für die Arbeit mit fehlenden Daten kennen. Wir führen spezielle Datenstrukturen ein – die Shadow-Matrix und nabulare Daten – und zeigen, wie du sie in Workflows zur Exploration fehlender Daten nutzt, sodass du Zusammenfassungen der Missingness wieder mit den Werten im Datensatz verknüpfen kannst. Du lernst, wie du mit ggplot explorierst und visualisierst, wie sich Werte verändern, wenn andere Variablen fehlen. Schließlich lernst du, wie man Missingness über zwei Variablen visualisiert und wie und warum man fehlende Werte in einem Streudiagramm darstellt.

Exercise 1: Werkzeuge zur Untersuchung der Abhängigkeit fehlender Daten Exercise 2: Shadow-Matrix-Daten erzeugen Exercise 3: Gruppierte Zusammenfassungen der Fehlendheit erstellen Exercise 4: Weitere Kombinationen von Missingness erkunden Exercise 5: Fehlwerte über eine Variable hinweg visualisieren Exercise 6: Nabular-Daten und Füllen nach Fehlwerten Exercise 7: Nabular-Daten und nach Missingness zusammenfassen Exercise 8: Variation nach Fehlwerten untersuchen: Boxplots Exercise 9: Fehlwerte über zwei Variablen visualisieren Exercise 10: Fehlende Daten mit Streudiagrammen erkunden Exercise 11: Mit Facets fehlende Werte erkunden Exercise 12: Faceting zur Untersuchung von Missingness (mehrere Plots)

In diesem Kapitel lernst du, wie du fehlende Werte in deinen Daten auffüllst – das nennt man Imputation. Du lernst, wie du imputierst und fehlende Werte nachverfolgst, und welche guten und schlechten Eigenschaften Imputationen haben, damit du die imputierten Daten gegenüber den Originalwerten explorieren, visualisieren und bewerten kannst. Außerdem lernst du, wie du verschiedene Imputationsmodelle nutzt, bewertest und vergleichst und wie unterschiedliche Imputationsmodelle die Schlussfolgerungen beeinflussen, die du aus den Modellen ziehen kannst.

Exercise 1: Lücken füllen Exercise 2: Daten unterhalb des Wertebereichs mit Nabular-Daten imputieren Exercise 3: Imputierte Werte in einem Streudiagramm visualisieren Exercise 4: Histogramm der imputierten Daten erstellen Exercise 5: Was macht eine gute Imputation aus Exercise 6: Schlechte Imputationen bewerten Exercise 7: Imputationen bewerten: Die Skalierung Exercise 8: Imputationen bewerten: Über viele Variablen hinweg Exercise 9: Imputationen durchführen Exercise 10: Daten mit simputation imputieren Exercise 11: Imputationen bewerten und vergleichen Exercise 12: Imputationen bewerten (viele Modelle & Variablen)Exercise 13: Imputationen und Modelle bewerten Exercise 14: Viele Imputationsmodelle kombinieren und vergleichen Exercise 15: Die Modellparameter vergleichen und bewerten Exercise 16: Abschließende Lektion