Spam e !!!
Vamos analisar um indicador mais evidente de spam: pontos de exclamação. exclaim_mess contém o número de pontos de exclamação em cada mensagem. Usando estatísticas-resumo e visualização, veja se existe relação entre essa variável e o fato de a mensagem ser spam ou não.
Experimente diferentes tipos de gráficos até encontrar o mais informativo. Lembre-se de que você já viu:
- Boxplots lado a lado
- Histogramas facetados
- Curvas de densidade sobrepostas
Este exercício faz parte do curso
Análise Exploratória de Dados em R
Instruções do exercício
O conjunto de dados email ainda está disponível no seu ambiente.
- Calcule medidas apropriadas de tendência central e dispersão de
exclaim_messpara spam e não spam usandogroup_by()esummarize(). - Construa um gráfico apropriado para visualizar a associação entre essas duas variáveis, adicionando uma etapa de transformação log se necessário.
- Se você decidir usar uma transformação log, lembre-se de que
log(0)é-Infem R, o que não é muito útil! Você pode contornar isso adicionando um número pequeno (como0.01) à quantidade dentro da funçãolog(). Assim, seu valor nunca será zero. Esse pequeno deslocamento para a direita não afetará seus resultados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess