Respondendo a perguntas com encadeamentos
Quando você tem uma pergunta específica sobre um conjunto de dados, pode chegar à resposta construindo com cuidado o encadeamento apropriado de código em R. Por exemplo, considere a seguinte pergunta: "Entre os emails que não são spam, o comprimento típico dos emails é menor para aqueles enviados para várias pessoas?"
Isso pode ser respondido com o seguinte encadeamento:
email %>%
filter(spam == "not-spam") %>%
group_by(to_multiple) %>%
summarize(median(num_char))
O código deixa claro que você está usando num_char para medir o comprimento de um email e median() como a medida do que é típico. Se você executar esse código, verá que a resposta é "sim": o comprimento típico de emails não spam enviados para várias pessoas é um pouco menor do que o dos enviados para apenas uma pessoa.
Este encadeamento termina com estatísticas resumo, mas outros podem terminar em um gráfico; tudo depende da pergunta que você quer responder.
Este exercício faz parte do curso
Análise Exploratória de Dados em R
Instruções do exercício
Construa um encadeamento para responder a cada uma das perguntas abaixo, ambas sobre a variável dollar.
- Para emails que contêm a palavra "dollar", o email de spam típico tem um número maior de ocorrências da palavra do que o email típico que não é spam? Crie uma estatística resumo que responda a essa pergunta.
- Se você encontrar um email com mais de 10 ocorrências da palavra
dollar, é mais provável que seja spam ou not-spam? Crie um gráfico de barras que responda a essa pergunta.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Question 1
email %>%
filter(___) %>%
group_by(___) %>%
summarize(___)
# Question 2
email %>%
filter(___) %>%
ggplot(aes(x = ___)) +
geom_bar()