Variablen nach Anteil zusammenfassen

Oft hast du keine konkreten Levels, die du zu „Other“ ändern oder zusammenfassen möchtest. Stattdessen willst du die häufigsten Levels behalten und alles andere in „other“ packen. Gerade wenn es viele Levels gibt und die meisten davon selten sind, hilft das bei der Darstellung deiner Daten. Probieren wir das mit der Kaggle-Umfragefrage aus, welche Machine-Learning-Methoden die Leute im nächsten Jahr ausprobieren wollten. multiple_choice_responses wurde für dich geladen. Denk beim Zählen daran, dass sort = TRUE standardmäßig einer absteigenden Sortierung entspricht.

Diese Übung ist Teil des Kurses

Kategorische Daten im Tidyverse

Kurs anzeigen

Anleitung zur Übung

Entferne Personen, die keine Methode ausgewählt haben.
Erstelle eine neue Variable ml_method aus MLMethodNextYearSelect, die Bezeichnungen beibehält, die mindestens 5 % der Befragten haben, und den Rest als „Other“ zusammenfasst (der Standardwert).
Zähle zum Schluss deine neue Variable, absteigend sortiert.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)

Code bearbeiten und ausführen