Wie viele fehlende Werte gibt es?
Eines der ersten Dinge, die du bei einem neuen Datensatz prüfen solltest, ist, ob es fehlende Werte gibt und wie viele.
Du könntest are_na() verwenden und die fehlenden Werte zusammenzählen, aber der effizienteste Weg, fehlende Werte zu zählen, ist die Funktion n_miss(). Sie liefert dir die Gesamtzahl der fehlenden Werte in den Daten.
Anschließend kannst du mit der Funktion pct_miss den Anteil der fehlenden Werte im Datensatz ermitteln. Sie liefert dir den Prozentsatz der fehlenden Werte in den Daten.
Die Gegenstücke dazu — also wie viele vollständige Werte vorhanden sind — findest du mit n_complete und pct_complete.
Diese Übung ist Teil des Kurses
Umgang mit fehlenden Daten in R
Anleitung zur Übung
Verwende den Beispiel-Dataframe mit Größen und Gewichten dat_hw:
- Verwende
n_miss()auf dem Dataframedat_hw, um die Gesamtzahl der fehlenden Werte im Dataframe zu zählen. - Verwende
n_miss()auf der Variabledat_hw$weight, um die Gesamtzahl der dort fehlenden Werte zu zählen. - Verwende analog
prop_miss(),n_complete()undprop_complete(), um den Anteil fehlender Werte sowie die Anzahl und den Anteil vollständiger Werte für den Dataframe und die Variablen zu erhalten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Use n_miss() to count the total number of missing values in dat_hw
n_miss(___)
# Use n_miss() on dat_hw$weight to count the total number of missing values
n_miss(___$___)
# Use n_complete() on dat_hw to count the total number of complete values
n_complete(___)
# Use n_complete() on dat_hw$weight to count the total number of complete values
___(___$___)
# Use prop_miss() and prop_complete() on dat_hw to count the total number of missing values in each of the variables
prop_miss(____)
prop_complete(___)