Het aantal levels onderzoeken
dplyr heeft twee andere functies die handig kunnen zijn bij het verkennen van een gegevensset. De eerste is slice_max(var, n = x), waarmee je de eerste x rijen van een gegevensset krijgt op basis van de waarde van var. De andere is pull(), waarmee je een kolom kunt extraheren en de naam weghaalt, zodat alleen de waarde(n) uit de kolom overblijven.
Als we bijvoorbeeld, als set waarden, de twee hoogste mpg-waarden uit de klassieke mtcars-gegevensset willen ophalen, zouden we schrijven:
mtcars %>%
slice_max(mpg, n = 2) %>%
pull(mpg)
Dit levert ons op:
[1] 32.4 33.9
Deze oefening maakt deel uit van de cursus
Categorische gegevens in de Tidyverse
Oefeninstructies
- Gebruik
slice_max()om de 3 rijen met het hoogste aantal factorlevels af te drukken. - Filter op de variabele
CurrentJobTitleSelecten gebruikpullom het aantal levels daarvan op te halen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select the 3 rows with the highest number of levels
number_of_levels %>%
___(num_levels, n = 3)
number_of_levels %>%
# Filter for where the column called variable equals CurrentJobTitleSelect
filter(___) %>%
# Pull num_levels
___