Raggruppare le variabili per proporzione

Spesso non avrai livelli specifici da rinominare o da accorpare. Piuttosto, vorrai mantenere i livelli più comuni e mettere tutto il resto in "Other". Questo è particolarmente utile per visualizzare i dati quando ci sono molti livelli e la maggior parte è rara. Proviamo con la domanda del sondaggio Kaggle su quali metodi di Machine Learning le persone vorrebbero provare il prossimo anno. multiple_choice_responses è già stato caricato per te. Quando fai il conteggio, ricorda che sort = TRUE corrisponde all'ordinamento decrescente per impostazione predefinita.

Questo esercizio fa parte del corso

Dati categoriali nel Tidyverse

Visualizza corso

Istruzioni dell'esercizio

Rimuovi le persone che non hanno selezionato alcun metodo.
Crea una nuova variabile, ml_method, a partire da MLMethodNextYearSelect che mantenga i titoli scelti da almeno il 5% dei rispondenti e raggruppi il resto come "Other" (il valore predefinito).
Infine, conta la tua nuova variabile, ordinata in ordine decrescente.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)

Modifica ed esegui il codice