Spam e num_char
Existe uma associação entre spam e o tamanho de um e-mail? Você poderia imaginar uma história de qualquer maneira:
- É mais provável que o spam seja uma mensagem curta que me tenta a clicar em um link, ou
- Meu e-mail normal provavelmente é mais curto, pois troco e-mails breves com meus amigos o tempo todo.
Aqui, você usará o conjunto de dados email
para resolver essa questão. Comece abrindo o arquivo de ajuda e aprendendo sobre todas as variáveis com ?email
.
Enquanto você explora a associação entre spam e o tamanho de um e-mail, aproveite essa oportunidade para tentar vincular uma cadeia dplyr
com as camadas em um objeto ggplot2
.
Este exercício faz parte do curso
Análise exploratória de dados em R
Instruções de exercício
Usando o conjunto de dados email
- Carregue os pacotes
ggplot2
,dplyr
eopenintro
. - Calcule as medidas apropriadas do centro e da propagação de
num_char
para spam e não-spam usandogroup_by()
esummarize()
. Não há necessidade de nomear as novas colunas criadas porsummarize()
. - Construa gráficos de caixa lado a lado para visualizar a associação entre as mesmas duas variáveis. Será útil para você
mutate()
uma nova coluna contendo uma versão transformada em log denum_char
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___