ComeçarComece de graça

Spam e !!!

Vamos analisar um indicador mais evidente de spam: pontos de exclamação. exclaim_mess contém o número de pontos de exclamação em cada mensagem. Usando estatísticas-resumo e visualização, veja se existe relação entre essa variável e o fato de a mensagem ser spam ou não.

Experimente diferentes tipos de gráficos até encontrar o mais informativo. Lembre-se de que você já viu:

  • Boxplots lado a lado
  • Histogramas facetados
  • Curvas de densidade sobrepostas

Este exercício faz parte do curso

Análise Exploratória de Dados em R

Ver curso

Instruções do exercício

O conjunto de dados email ainda está disponível no seu ambiente.

  • Calcule medidas apropriadas de tendência central e dispersão de exclaim_mess para spam e não spam usando group_by() e summarize().
  • Construa um gráfico apropriado para visualizar a associação entre essas duas variáveis, adicionando uma etapa de transformação log se necessário.
  • Se você decidir usar uma transformação log, lembre-se de que log(0) é -Inf em R, o que não é muito útil! Você pode contornar isso adicionando um número pequeno (como 0.01) à quantidade dentro da função log(). Assim, seu valor nunca será zero. Esse pequeno deslocamento para a direita não afetará seus resultados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Editar e executar o código