Aan de slagGa gratis aan de slag

Variabelen samenvoegen op basis van proportie

Vaak heb je geen specifieke niveaus die je naar "other" wilt verplaatsen of samenvoegen. In plaats daarvan wil je de meest voorkomende niveaus behouden en al het andere onder "other" zetten. Zeker wanneer er veel niveaus zijn en de meeste zeldzaam zijn, is dit handig om je gegevens weer te geven. Laten we dit uitproberen met de vraag uit de Kaggle-enquête over welke machine learning-methoden mensen volgend jaar willen proberen. multiple_choice_responses is voor je geladen. Denk eraan dat sort = TRUE standaard staat voor aflopend sorteren.

Deze oefening maakt deel uit van de cursus

Categorische gegevens in de Tidyverse

Cursus bekijken

Oefeninstructies

  • Verwijder mensen die geen methode hebben geselecteerd.
  • Maak een nieuwe variabele, ml_method, op basis van MLMethodNextYearSelect die titels behoudt die minstens 5% van de respondenten hebben, en voeg de rest samen als "Other" (de standaardwaarde).
  • Tel tot slot je nieuwe variabele, aflopend gesorteerd.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)
Code bewerken en uitvoeren