Respondendo a perguntas com encadeamentos

Quando você tem uma pergunta específica sobre um conjunto de dados, pode chegar à resposta construindo com cuidado o encadeamento apropriado de código em R. Por exemplo, considere a seguinte pergunta: "Entre os emails que não são spam, o comprimento típico dos emails é menor para aqueles enviados para várias pessoas?"

Isso pode ser respondido com o seguinte encadeamento:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

O código deixa claro que você está usando num_char para medir o comprimento de um email e median() como a medida do que é típico. Se você executar esse código, verá que a resposta é "sim": o comprimento típico de emails não spam enviados para várias pessoas é um pouco menor do que o dos enviados para apenas uma pessoa.

Este encadeamento termina com estatísticas resumo, mas outros podem terminar em um gráfico; tudo depende da pergunta que você quer responder.

Este exercício faz parte do curso

Análise Exploratória de Dados em R

Ver curso

Instruções do exercício

Construa um encadeamento para responder a cada uma das perguntas abaixo, ambas sobre a variável dollar.

Para emails que contêm a palavra "dollar", o email de spam típico tem um número maior de ocorrências da palavra do que o email típico que não é spam? Crie uma estatística resumo que responda a essa pergunta.
Se você encontrar um email com mais de 10 ocorrências da palavra dollar, é mais provável que seja spam ou not-spam? Crie um gráfico de barras que responda a essa pergunta.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Question 1
email %>%
  filter(___) %>%
  group_by(___) %>%
  summarize(___)

# Question 2
email %>%
  filter(___) %>%
  ggplot(aes(x = ___)) +
  geom_bar()

Editar e executar o código