Agrupando variáveis por proporção
Muitas vezes, você não terá níveis específicos que queira mudar para "other" ou agrupar. Em vez disso, você quer manter os níveis mais comuns e colocar todo o resto em "other". Especialmente quando há muitos níveis e a maioria é rara, isso ajuda a exibir seus dados. Vamos testar isso usando a pergunta da pesquisa do Kaggle sobre quais métodos de machine learning as pessoas querem experimentar no próximo ano. multiple_choice_responses já foi carregado para você. Ao contar, lembre-se de que sort = TRUE corresponde, por padrão, à ordem decrescente.
Este exercício faz parte do curso
Dados Categóricos no Tidyverse
Instruções do exercício
- Remova as pessoas que não selecionaram um método.
- Crie uma nova variável,
ml_method, a partir deMLMethodNextYearSelectque preserve os títulos que pelo menos 5% dos respondentes possuem e agrupe o restante como "Other" (o valor padrão). - Por fim, faça a contagem da sua nova variável, em ordem decrescente.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
multiple_choice_responses %>%
# Remove NAs of MLMethodNextYearSelect
filter(___) %>%
# Create ml_method, which lumps all those with less than 5% of people into "Other"
mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
# Count the frequency of your new variable, sorted in descending order
___(___, ___)