CommencerCommencer gratuitement

Supprimer des niveaux

La table de contingence de l’exercice précédent a montré que certains niveaux ont des effectifs très faibles. Pour simplifier l’analyse, il est souvent utile de supprimer ces niveaux.

En R, cela nécessite deux étapes : d’abord filtrer toutes les lignes portant les niveaux avec des effectifs très faibles, puis retirer ces niveaux de la variable factorielle avec droplevels(). En effet, la fonction droplevels() conserve les niveaux qui ont seulement 1 ou 2 occurrences ; elle ne supprime que les niveaux qui n’existent pas dans un jeu de données.

Cet exercice fait partie du cours

Analyse exploratoire des données en R

Afficher le cours

Instructions

La table de contingence de l’exercice précédent est disponible dans votre espace de travail sous le nom tab.

  • Chargez le package dplyr.
  • Affichez tab pour identifier quel niveau de align a le plus petit nombre d’entrées au total.
  • Utilisez filter() pour exclure de comics toutes les lignes correspondant à ce niveau, puis supprimez le niveau inutilisé avec droplevels(). Enregistrez l’ensemble de données simplifié sous le nom comics_filtered.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load dplyr
___

# Print tab
___

# Remove align level
comics_filtered <- ___ %>%
  ___(align != ___) %>%
  ___()

# See the result
comics_filtered
Modifier et exécuter le code