Variabelen samenvoegen op basis van proportie

Vaak heb je geen specifieke niveaus die je naar "other" wilt verplaatsen of samenvoegen. In plaats daarvan wil je de meest voorkomende niveaus behouden en al het andere onder "other" zetten. Zeker wanneer er veel niveaus zijn en de meeste zeldzaam zijn, is dit handig om je gegevens weer te geven. Laten we dit uitproberen met de vraag uit de Kaggle-enquête over welke machine learning-methoden mensen volgend jaar willen proberen. multiple_choice_responses is voor je geladen. Denk eraan dat sort = TRUE standaard staat voor aflopend sorteren.

Deze oefening maakt deel uit van de cursus

Categorische gegevens in de Tidyverse

Bekijk cursus

Oefeninstructies

Verwijder mensen die geen methode hebben geselecteerd.
Maak een nieuwe variabele, ml_method, op basis van MLMethodNextYearSelect die titels behoudt die minstens 5% van de respondenten hebben, en voeg de rest samen als "Other" (de standaardwaarde).
Tel tot slot je nieuwe variabele, aflopend gesorteerd.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)

Code bewerken en uitvoeren