Spam e !!!
Vamos dar uma olhada em um indicador mais óbvio de spam: pontos de exclamação. exclaim_mess
contém o número de pontos de exclamação em cada mensagem. Usando estatísticas resumidas e visualização, veja se há uma relação entre essa variável e o fato de uma mensagem ser ou não spam.
Faça experiências com diferentes tipos de gráficos até que você encontre um que seja mais informativo. Lembre-se de que você já viu:
- Gráficos de caixa lado a lado
- Histogramas facetados
- Gráficos de densidade sobrepostos
Este exercício faz parte do curso
Análise exploratória de dados em R
Instruções de exercício
O conjunto de dados email
ainda está disponível em seu espaço de trabalho.
- Calcule as medidas apropriadas do centro e da dispersão de
exclaim_mess
para spam e não-spam usandogroup_by()
esummarize()
. - Construa um gráfico apropriado para visualizar a associação entre as mesmas duas variáveis, adicionando uma etapa de transformação de logaritmo, se necessário.
- Se você decidir usar uma transformação de log, lembre-se de que
log(0)
é-Inf
no R, o que não é um valor muito útil! Você pode contornar isso adicionando um número pequeno (como0.01
) à quantidade dentro da funçãolog()
. Dessa forma, seu valor nunca é zero. Esse pequeno deslocamento para a direita não afetará seus resultados.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess