Spam e !!!
Vamos dar uma olhada em um indicador mais óbvio de spam: pontos de exclamação. exclaim_mess contém o número de pontos de exclamação em cada mensagem. Usando estatísticas resumidas e visualização, veja se há uma relação entre essa variável e o fato de uma mensagem ser ou não spam.
Faça experiências com diferentes tipos de gráficos até que você encontre um que seja mais informativo. Lembre-se de que você já viu:
- Gráficos de caixa lado a lado
- Histogramas facetados
- Gráficos de densidade sobrepostos
Este exercício faz parte do curso
Análise exploratória de dados em R
Instruções do exercício
O conjunto de dados email ainda está disponível em seu espaço de trabalho.
- Calcule as medidas apropriadas do centro e da dispersão de
exclaim_messpara spam e não-spam usandogroup_by()esummarize(). - Construa um gráfico apropriado para visualizar a associação entre as mesmas duas variáveis, adicionando uma etapa de transformação de logaritmo, se necessário.
- Se você decidir usar uma transformação de log, lembre-se de que
log(0)é-Infno R, o que não é um valor muito útil! Você pode contornar isso adicionando um número pequeno (como0.01) à quantidade dentro da funçãolog(). Dessa forma, seu valor nunca é zero. Esse pequeno deslocamento para a direita não afetará seus resultados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess