CommencerCommencer gratuitement

Examiner le nombre de niveaux

dplyr propose deux autres fonctions très utiles pour explorer un jeu de données. La première est slice_max(var, n = x), qui récupère les x premières lignes d’un jeu de données selon la valeur de var. L’autre est pull(), qui permet d’extraire une colonne en supprimant son nom pour ne garder que sa ou ses valeurs.

Par exemple, si vous souhaitez obtenir, sous forme d’ensemble de valeurs, les deux plus grandes valeurs de mpg dans le jeu de données classique mtcars, vous écririez :

mtcars %>%
  slice_max(mpg, n = 2) %>%
  pull(mpg)

Cela renvoie :

[1] 32.4 33.9

Cet exercice fait partie du cours

Données catégorielles dans le Tidyverse

Afficher le cours

Instructions

  • Utilisez slice_max() pour afficher les 3 lignes ayant le plus grand nombre de niveaux de facteur.
  • En filtrant la variable CurrentJobTitleSelect, utilisez pull pour extraire son nombre de niveaux.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select the 3 rows with the highest number of levels
number_of_levels %>%
    ___(num_levels, n = 3)
    
number_of_levels %>%
	# Filter for where the column called variable equals CurrentJobTitleSelect
    filter(___) %>%
	# Pull num_levels
    ___
Modifier et exécuter le code