Variablen nach Anteil zusammenfassen
Oft hast du keine konkreten Levels, die du zu „Other“ ändern oder zusammenfassen möchtest. Stattdessen willst du die häufigsten Levels behalten und alles andere in „other“ packen. Gerade wenn es viele Levels gibt und die meisten davon selten sind, hilft das bei der Darstellung deiner Daten. Probieren wir das mit der Kaggle-Umfragefrage aus, welche Machine-Learning-Methoden die Leute im nächsten Jahr ausprobieren wollten. multiple_choice_responses wurde für dich geladen. Denk beim Zählen daran, dass sort = TRUE standardmäßig einer absteigenden Sortierung entspricht.
Diese Übung ist Teil des Kurses
Kategorische Daten im Tidyverse
Anleitung zur Übung
- Entferne Personen, die keine Methode ausgewählt haben.
- Erstelle eine neue Variable
ml_methodausMLMethodNextYearSelect, die Bezeichnungen beibehält, die mindestens 5 % der Befragten haben, und den Rest als „Other“ zusammenfasst (der Standardwert). - Zähle zum Schluss deine neue Variable, absteigend sortiert.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
multiple_choice_responses %>%
# Remove NAs of MLMethodNextYearSelect
filter(___) %>%
# Create ml_method, which lumps all those with less than 5% of people into "Other"
mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
# Count the frequency of your new variable, sorted in descending order
___(___, ___)