Regrouper des variables par proportion
Souvent, vous n’avez pas de modalités précises à renommer ou à fusionner. Vous préférez conserver les modalités les plus fréquentes et placer tout le reste dans « Other ». C’est particulièrement utile pour afficher vos données lorsqu’il y a de nombreuses modalités et que la plupart sont rares. Essayons avec la question du sondage Kaggle sur les méthodes de machine learning que les personnes souhaitent essayer l’an prochain. multiple_choice_responses a été chargé pour vous. Lorsque vous comptez, rappelez-vous que sort = TRUE correspond par défaut à un tri en ordre décroissant.
Cet exercice fait partie du cours
Données catégorielles dans le Tidyverse
Instructions
- Retirez les personnes qui n’ont sélectionné aucune méthode.
- Créez une nouvelle variable,
ml_method, à partir deMLMethodNextYearSelectqui conserve les intitulés présents chez au moins 5 % des répondants et regroupe le reste sous « Other » (la valeur par défaut). - Enfin, comptez votre nouvelle variable, triée par ordre décroissant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
multiple_choice_responses %>%
# Remove NAs of MLMethodNextYearSelect
filter(___) %>%
# Create ml_method, which lumps all those with less than 5% of people into "Other"
mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
# Count the frequency of your new variable, sorted in descending order
___(___, ___)