Variabelen samenvoegen op basis van proportie
Vaak heb je geen specifieke niveaus die je naar "other" wilt verplaatsen of samenvoegen. In plaats daarvan wil je de meest voorkomende niveaus behouden en al het andere onder "other" zetten. Zeker wanneer er veel niveaus zijn en de meeste zeldzaam zijn, is dit handig om je gegevens weer te geven. Laten we dit uitproberen met de vraag uit de Kaggle-enquête over welke machine learning-methoden mensen volgend jaar willen proberen. multiple_choice_responses is voor je geladen. Denk eraan dat sort = TRUE standaard staat voor aflopend sorteren.
Deze oefening maakt deel uit van de cursus
Categorische gegevens in de Tidyverse
Oefeninstructies
- Verwijder mensen die geen methode hebben geselecteerd.
- Maak een nieuwe variabele,
ml_method, op basis vanMLMethodNextYearSelectdie titels behoudt die minstens 5% van de respondenten hebben, en voeg de rest samen als "Other" (de standaardwaarde). - Tel tot slot je nieuwe variabele, aflopend gesorteerd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
multiple_choice_responses %>%
# Remove NAs of MLMethodNextYearSelect
filter(___) %>%
# Create ml_method, which lumps all those with less than 5% of people into "Other"
mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
# Count the frequency of your new variable, sorted in descending order
___(___, ___)