Regrouper des variables par proportion

Souvent, vous n’avez pas de modalités précises à renommer ou à fusionner. Vous préférez conserver les modalités les plus fréquentes et placer tout le reste dans « Other ». C’est particulièrement utile pour afficher vos données lorsqu’il y a de nombreuses modalités et que la plupart sont rares. Essayons avec la question du sondage Kaggle sur les méthodes de machine learning que les personnes souhaitent essayer l’an prochain. multiple_choice_responses a été chargé pour vous. Lorsque vous comptez, rappelez-vous que sort = TRUE correspond par défaut à un tri en ordre décroissant.

Cet exercice fait partie du cours

<cours>Données catégorielles dans le Tidyverse</cours>

Voir le cours

Instructions de l’exercice

Retirez les personnes qui n’ont sélectionné aucune méthode.
Créez une nouvelle variable, ml_method, à partir de MLMethodNextYearSelect qui conserve les intitulés présents chez au moins 5 % des répondants et regroupe le reste sous « Other » (la valeur par défaut).
Enfin, comptez votre nouvelle variable, triée par ordre décroissant.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)

Modifier et exécuter le code