ComeçarComece de graça

Agrupando variáveis por proporção

Muitas vezes, você não terá níveis específicos que queira mudar para "other" ou agrupar. Em vez disso, você quer manter os níveis mais comuns e colocar todo o resto em "other". Especialmente quando há muitos níveis e a maioria é rara, isso ajuda a exibir seus dados. Vamos testar isso usando a pergunta da pesquisa do Kaggle sobre quais métodos de machine learning as pessoas querem experimentar no próximo ano. multiple_choice_responses já foi carregado para você. Ao contar, lembre-se de que sort = TRUE corresponde, por padrão, à ordem decrescente.

Este exercício faz parte do curso

Dados Categóricos no Tidyverse

Ver curso

Instruções do exercício

  • Remova as pessoas que não selecionaram um método.
  • Crie uma nova variável, ml_method, a partir de MLMethodNextYearSelect que preserve os títulos que pelo menos 5% dos respondentes possuem e agrupe o restante como "Other" (o valor padrão).
  • Por fim, faça a contagem da sua nova variável, em ordem decrescente.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)
Editar e executar o código