Aan de slagGa gratis aan de slag

Hoeveel missende waarden zijn er?

Een van de eerste dingen die je wilt controleren bij een nieuwe gegevensset is of er missende waarden zijn en hoeveel.

Je kunt are_na() gebruiken en de missende waarden optellen, maar de meest efficiënte manier om missende waarden te tellen is met de functie n_miss(). Deze geeft je het totaal aantal missende waarden in de data.

Vervolgens kun je het percentage missende waarden in de data bepalen met de functie pct_miss. Deze geeft je het percentage missende waarden in de data.

Je kunt ook het complement hiervan vinden — hoeveel complete waarden er zijn — met n_complete en pct_complete.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Cursus bekijken

Oefeninstructies

Gebruik de voorbeeld-dataframe met lengtes en gewichten dat_hw:

  • Gebruik n_miss() op de dataframe dat_hw om het totale aantal missende waarden in de dataframe te tellen.
  • Gebruik n_miss() op de variabele dat_hw$weight om het totale aantal missende waarden daarin te tellen.
  • Gebruik op dezelfde manier prop_miss(), n_complete() en prop_complete() om het aandeel missende waarden, en het aantal en aandeel complete waarden voor de dataframe en de variabelen te krijgen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Use n_miss() to count the total number of missing values in dat_hw
n_miss(___)

# Use n_miss() on dat_hw$weight to count the total number of missing values
n_miss(___$___)

# Use n_complete() on dat_hw to count the total number of complete values
n_complete(___)

# Use n_complete() on dat_hw$weight to count the total number of complete values
___(___$___)

# Use prop_miss() and prop_complete() on dat_hw to count the total number of missing values in each of the variables
prop_miss(____)
prop_complete(___)
Code bewerken en uitvoeren