IniziaInizia gratis

Raggruppare le variabili per proporzione

Spesso non avrai livelli specifici da rinominare o da accorpare. Piuttosto, vorrai mantenere i livelli più comuni e mettere tutto il resto in "Other". Questo è particolarmente utile per visualizzare i dati quando ci sono molti livelli e la maggior parte è rara. Proviamo con la domanda del sondaggio Kaggle su quali metodi di Machine Learning le persone vorrebbero provare il prossimo anno. multiple_choice_responses è già stato caricato per te. Quando fai il conteggio, ricorda che sort = TRUE corrisponde all'ordinamento decrescente per impostazione predefinita.

Questo esercizio fa parte del corso

Dati categoriali nel Tidyverse

Visualizza il corso

Istruzioni dell'esercizio

  • Rimuovi le persone che non hanno selezionato alcun metodo.
  • Crea una nuova variabile, ml_method, a partire da MLMethodNextYearSelect che mantenga i titoli scelti da almeno il 5% dei rispondenti e raggruppi il resto come "Other" (il valore predefinito).
  • Infine, conta la tua nuova variabile, ordinata in ordine decrescente.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)
Modifica ed esegui il codice