ComeçarComece de graça

Spam e num_char

Existe associação entre spam e o comprimento de um e-mail? Dá para imaginar uma história para os dois lados:

  • Spam tende a ser uma mensagem curta me tentando a clicar em um link, ou
  • Meu e-mail normal tende a ser mais curto, já que troco mensagens breves com meus amigos o tempo todo.

Aqui, você vai usar o conjunto de dados email para resolver essa questão. Comece abrindo a documentação e conhecendo todas as variáveis com ?email.

Enquanto explora a associação entre spam e o comprimento de um e-mail, aproveite para experimentar encadear uma sequência do dplyr com as camadas em um objeto do ggplot2.

Este exercício faz parte do curso

Análise Exploratória de Dados em R

Ver curso

Instruções do exercício

Usando o conjunto de dados email

  • Carregue os pacotes ggplot2, dplyr e openintro.
  • Calcule medidas apropriadas de tendência central e dispersão de num_char para spam e não spam usando group_by() e summarize(). Não há necessidade de nomear as novas colunas criadas por summarize().
  • Construa boxplots lado a lado para visualizar a associação entre essas duas variáveis. Será útil usar mutate() para criar uma nova coluna contendo uma versão de num_char transformada em log.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Editar e executar o código