Raggruppare le variabili per proporzione
Spesso non avrai livelli specifici da rinominare o da accorpare. Piuttosto, vorrai mantenere i livelli più comuni e mettere tutto il resto in "Other". Questo è particolarmente utile per visualizzare i dati quando ci sono molti livelli e la maggior parte è rara. Proviamo con la domanda del sondaggio Kaggle su quali metodi di Machine Learning le persone vorrebbero provare il prossimo anno. multiple_choice_responses è già stato caricato per te. Quando fai il conteggio, ricorda che sort = TRUE corrisponde all'ordinamento decrescente per impostazione predefinita.
Questo esercizio fa parte del corso
Dati categoriali nel Tidyverse
Istruzioni dell'esercizio
- Rimuovi le persone che non hanno selezionato alcun metodo.
- Crea una nuova variabile,
ml_method, a partire daMLMethodNextYearSelectche mantenga i titoli scelti da almeno il 5% dei rispondenti e raggruppi il resto come "Other" (il valore predefinito). - Infine, conta la tua nuova variabile, ordinata in ordine decrescente.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
multiple_choice_responses %>%
# Remove NAs of MLMethodNextYearSelect
filter(___) %>%
# Create ml_method, which lumps all those with less than 5% of people into "Other"
mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
# Count the frequency of your new variable, sorted in descending order
___(___, ___)