Wie viele fehlende Werte gibt es?
Eines der ersten Dinge, die du bei einem neuen Datensatz prüfen solltest, ist, ob es fehlende Werte gibt und wie viele.
Du könntest are_na() verwenden und die fehlenden Werte zusammenzählen, aber der effizienteste Weg, fehlende Werte zu zählen, ist die Funktion n_miss(). Sie liefert dir die Gesamtzahl der fehlenden Werte in den Daten.
Anschließend kannst du mit der Funktion pct_miss den Anteil der fehlenden Werte im Datensatz ermitteln. Sie liefert dir den Prozentsatz der fehlenden Werte in den Daten.
Die Gegenstücke dazu — also wie viele vollständige Werte vorhanden sind — findest du mit n_complete und pct_complete.
Diese Übung ist Teil des Kurses
<Kurs>Umgang mit fehlenden Daten in R</Kurs>Übungsanweisungen
Verwende den Beispiel-Dataframe mit Größen und Gewichten dat_hw:
- Verwende
n_miss()auf dem Dataframedat_hw, um die Gesamtzahl der fehlenden Werte im Dataframe zu zählen. - Verwende
n_miss()auf der Variabledat_hw$weight, um die Gesamtzahl der dort fehlenden Werte zu zählen. - Verwende analog
prop_miss(),n_complete()undprop_complete(), um den Anteil fehlender Werte sowie die Anzahl und den Anteil vollständiger Werte für den Dataframe und die Variablen zu erhalten.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Use n_miss() to count the total number of missing values in dat_hw
n_miss(___)
# Use n_miss() on dat_hw$weight to count the total number of missing values
n_miss(___$___)
# Use n_complete() on dat_hw to count the total number of complete values
n_complete(___)
# Use n_complete() on dat_hw$weight to count the total number of complete values
___(___$___)
# Use prop_miss() and prop_complete() on dat_hw to count the total number of missing values in each of the variables
prop_miss(____)
prop_complete(___)