Examiner le nombre de niveaux
dplyr propose deux autres fonctions très utiles pour explorer un jeu de données. La première est slice_max(var, n = x), qui récupère les x premières lignes d’un jeu de données selon la valeur de var. L’autre est pull(), qui permet d’extraire une colonne en supprimant son nom pour ne garder que sa ou ses valeurs.
Par exemple, si vous souhaitez obtenir, sous forme d’ensemble de valeurs, les deux plus grandes valeurs de mpg dans le jeu de données classique mtcars, vous écririez :
mtcars %>%
slice_max(mpg, n = 2) %>%
pull(mpg)
Cela renvoie :
[1] 32.4 33.9
Cet exercice fait partie du cours
Données catégorielles dans le Tidyverse
Instructions
- Utilisez
slice_max()pour afficher les 3 lignes ayant le plus grand nombre de niveaux de facteur. - En filtrant la variable
CurrentJobTitleSelect, utilisezpullpour extraire son nombre de niveaux.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select the 3 rows with the highest number of levels
number_of_levels %>%
___(num_levels, n = 3)
number_of_levels %>%
# Filter for where the column called variable equals CurrentJobTitleSelect
filter(___) %>%
# Pull num_levels
___