Hoeveel missende waarden zijn er?
Een van de eerste dingen die je wilt controleren bij een nieuwe gegevensset is of er missende waarden zijn en hoeveel.
Je kunt are_na() gebruiken en de missende waarden optellen, maar de meest efficiënte manier om missende waarden te tellen is met de functie n_miss(). Deze geeft je het totaal aantal missende waarden in de data.
Vervolgens kun je het percentage missende waarden in de data bepalen met de functie pct_miss. Deze geeft je het percentage missende waarden in de data.
Je kunt ook het complement hiervan vinden — hoeveel complete waarden er zijn — met n_complete en pct_complete.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in R
Oefeninstructies
Gebruik de voorbeeld-dataframe met lengtes en gewichten dat_hw:
- Gebruik
n_miss()op de dataframedat_hwom het totale aantal missende waarden in de dataframe te tellen. - Gebruik
n_miss()op de variabeledat_hw$weightom het totale aantal missende waarden daarin te tellen. - Gebruik op dezelfde manier
prop_miss(),n_complete()enprop_complete()om het aandeel missende waarden, en het aantal en aandeel complete waarden voor de dataframe en de variabelen te krijgen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Use n_miss() to count the total number of missing values in dat_hw
n_miss(___)
# Use n_miss() on dat_hw$weight to count the total number of missing values
n_miss(___$___)
# Use n_complete() on dat_hw to count the total number of complete values
n_complete(___)
# Use n_complete() on dat_hw$weight to count the total number of complete values
___(___$___)
# Use prop_miss() and prop_complete() on dat_hw to count the total number of missing values in each of the variables
prop_miss(____)
prop_complete(___)