ComeçarComece gratuitamente

Spam e num_char

Existe uma associação entre spam e o tamanho de um e-mail? Você poderia imaginar uma história de qualquer maneira:

  • É mais provável que o spam seja uma mensagem curta que me tenta a clicar em um link, ou
  • Meu e-mail normal provavelmente é mais curto, pois troco e-mails breves com meus amigos o tempo todo.

Aqui, você usará o conjunto de dados email para resolver essa questão. Comece abrindo o arquivo de ajuda e aprendendo sobre todas as variáveis com ?email.

Enquanto você explora a associação entre spam e o tamanho de um e-mail, aproveite essa oportunidade para tentar vincular uma cadeia dplyr com as camadas em um objeto ggplot2.

Este exercício faz parte do curso

Análise exploratória de dados em R

Ver Curso

Instruções de exercício

Usando o conjunto de dados email

  • Carregue os pacotes ggplot2, dplyr e openintro.
  • Calcule as medidas apropriadas do centro e da propagação de num_char para spam e não-spam usando group_by() e summarize(). Não há necessidade de nomear as novas colunas criadas por summarize().
  • Construa gráficos de caixa lado a lado para visualizar a associação entre as mesmas duas variáveis. Será útil para você mutate() uma nova coluna contendo uma versão transformada em log de num_char.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Editar e executar código