Supprimer des niveaux
La table de contingence de l’exercice précédent a montré que certains niveaux ont des effectifs très faibles. Pour simplifier l’analyse, il est souvent utile de supprimer ces niveaux.
En R, cela nécessite deux étapes : d’abord filtrer toutes les lignes portant les niveaux avec des effectifs très faibles, puis retirer ces niveaux de la variable factorielle avec droplevels(). En effet, la fonction droplevels() conserve les niveaux qui ont seulement 1 ou 2 occurrences ; elle ne supprime que les niveaux qui n’existent pas dans un jeu de données.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
La table de contingence de l’exercice précédent est disponible dans votre espace de travail sous le nom tab.
- Chargez le package
dplyr. - Affichez
tabpour identifier quel niveau dealigna le plus petit nombre d’entrées au total. - Utilisez
filter()pour exclure decomicstoutes les lignes correspondant à ce niveau, puis supprimez le niveau inutilisé avecdroplevels(). Enregistrez l’ensemble de données simplifié sous le nomcomics_filtered.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load dplyr
___
# Print tab
___
# Remove align level
comics_filtered <- ___ %>%
___(align != ___) %>%
___()
# See the result
comics_filtered