ComeçarComece gratuitamente

Spam e !!!

Vamos dar uma olhada em um indicador mais óbvio de spam: pontos de exclamação. exclaim_mess contém o número de pontos de exclamação em cada mensagem. Usando estatísticas resumidas e visualização, veja se há uma relação entre essa variável e o fato de uma mensagem ser ou não spam.

Faça experiências com diferentes tipos de gráficos até que você encontre um que seja mais informativo. Lembre-se de que você já viu:

  • Gráficos de caixa lado a lado
  • Histogramas facetados
  • Gráficos de densidade sobrepostos

Este exercício faz parte do curso

Análise exploratória de dados em R

Ver Curso

Instruções de exercício

O conjunto de dados email ainda está disponível em seu espaço de trabalho.

  • Calcule as medidas apropriadas do centro e da dispersão de exclaim_mess para spam e não-spam usando group_by() e summarize().
  • Construa um gráfico apropriado para visualizar a associação entre as mesmas duas variáveis, adicionando uma etapa de transformação de logaritmo, se necessário.
  • Se você decidir usar uma transformação de log, lembre-se de que log(0) é -Inf no R, o que não é um valor muito útil! Você pode contornar isso adicionando um número pequeno (como 0.01) à quantidade dentro da função log(). Dessa forma, seu valor nunca é zero. Esse pequeno deslocamento para a direita não afetará seus resultados.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Editar e executar código