Respondendo a perguntas com cadeias
Quando você tem uma pergunta específica sobre um conjunto de dados, pode encontrar o caminho para a resposta construindo cuidadosamente a cadeia apropriada do código R. Por exemplo, considere a seguinte pergunta: "Em e-mails que não são de spam, o tamanho típico dos e-mails é menor para aqueles que foram enviados a várias pessoas?"
Isso pode ser respondido com a seguinte cadeia:
email %>%
filter(spam == "not-spam") %>%
group_by(to_multiple) %>%
summarize(median(num_char))
O código deixa claro que você está usando num_char
para medir o tamanho de um e-mail e median()
como a medida do que é típico. Se você executar esse código, verá que a resposta à pergunta é "sim": a duração típica do não-spam enviado a várias pessoas é um pouco menor do que a dos enviados a apenas uma pessoa.
Essa cadeia foi concluída com estatísticas resumidas, mas outras podem terminar em um gráfico; tudo depende da pergunta que você está tentando responder.
Este exercício faz parte do curso
Análise exploratória de dados em R
Instruções do exercício
Crie uma cadeia para responder a cada uma das perguntas a seguir, ambas sobre a variável dollar
.
- Em relação aos e-mails que contêm a palavra "dólar", o e-mail típico de spam contém um número maior de ocorrências da palavra do que o e-mail típico de não spam? Crie um resumo estatístico que responda a essa pergunta.
- Se você encontrar um e-mail com mais de 10 ocorrências da palavra
dollar
, é mais provável que ele seja spam ou não-spam? Crie um gráfico de barras que responda a essa pergunta.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Question 1
email %>%
filter(___) %>%
group_by(___) %>%
summarize(___)
# Question 2
email %>%
filter(___) %>%
ggplot(aes(x = ___)) +
geom_bar()