Spam e num_char
Existe associação entre spam e o comprimento de um e-mail? Dá para imaginar uma história para os dois lados:
- Spam tende a ser uma mensagem curta me tentando a clicar em um link, ou
- Meu e-mail normal tende a ser mais curto, já que troco mensagens breves com meus amigos o tempo todo.
Aqui, você vai usar o conjunto de dados email para resolver essa questão. Comece abrindo a documentação e conhecendo todas as variáveis com ?email.
Enquanto explora a associação entre spam e o comprimento de um e-mail, aproveite para experimentar encadear uma sequência do dplyr com as camadas em um objeto do ggplot2.
Este exercício faz parte do curso
Análise Exploratória de Dados em R
Instruções do exercício
Usando o conjunto de dados email
- Carregue os pacotes
ggplot2,dplyreopenintro. - Calcule medidas apropriadas de tendência central e dispersão de
num_charpara spam e não spam usandogroup_by()esummarize(). Não há necessidade de nomear as novas colunas criadas porsummarize(). - Construa boxplots lado a lado para visualizar a associação entre essas duas variáveis. Será útil usar
mutate()para criar uma nova coluna contendo uma versão denum_chartransformada em log.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___