ComeçarComece de graça

Respondendo a perguntas com cadeias

Quando você tem uma pergunta específica sobre um conjunto de dados, pode encontrar o caminho para a resposta construindo cuidadosamente a cadeia apropriada do código R. Por exemplo, considere a seguinte pergunta: "Em e-mails que não são de spam, o tamanho típico dos e-mails é menor para aqueles que foram enviados a várias pessoas?"

Isso pode ser respondido com a seguinte cadeia:

email %>%

   filter(spam == "not-spam") %>%

   group_by(to_multiple) %>%

   summarize(median(num_char))

O código deixa claro que você está usando num_char para medir o tamanho de um e-mail e median() como a medida do que é típico. Se você executar esse código, verá que a resposta à pergunta é "sim": a duração típica do não-spam enviado a várias pessoas é um pouco menor do que a dos enviados a apenas uma pessoa.

Essa cadeia foi concluída com estatísticas resumidas, mas outras podem terminar em um gráfico; tudo depende da pergunta que você está tentando responder.

Este exercício faz parte do curso

Análise exploratória de dados em R

Ver curso

Instruções do exercício

Crie uma cadeia para responder a cada uma das perguntas a seguir, ambas sobre a variável dollar.

  • Em relação aos e-mails que contêm a palavra "dólar", o e-mail típico de spam contém um número maior de ocorrências da palavra do que o e-mail típico de não spam? Crie um resumo estatístico que responda a essa pergunta.
  • Se você encontrar um e-mail com mais de 10 ocorrências da palavra dollar, é mais provável que ele seja spam ou não-spam? Crie um gráfico de barras que responda a essa pergunta.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Question 1
email %>%
  filter(___) %>%
  group_by(___) %>%
  summarize(___)

# Question 2
email %>%
  filter(___) %>%
  ggplot(aes(x = ___)) +
  geom_bar()
Editar e executar o código