ComeçarComece de graça

Reagrupando níveis

Se já foi difícil lidar com a forte assimetria de exclaim_mess, o número de imagens anexadas a cada e-mail (image) traz um desafio ainda maior. Execute o código a seguir no console para ter uma noção da distribuição:

table(email$image)

Lembre-se de que isso tabula o número de casos em cada categoria (por exemplo, havia 3811 e-mails com 0 imagens). Dadas as contagens muito baixas nos números mais altos de imagens, vamos agrupar image em uma variável categórica que indica se o e-mail tem pelo menos uma imagem ou não. Neste exercício, você vai criar essa nova variável e explorar sua associação com spam.

Este exercício faz parte do curso

Análise Exploratória de Dados em R

Ver curso

Instruções do exercício

Começando com email, forme uma cadeia contínua que conecte as seguintes tarefas:

  • Crie uma nova variável chamada has_image que seja TRUE quando o número de imagens for maior que zero e FALSE caso contrário.
  • Crie um gráfico apropriado com email para visualizar a relação entre has_image e spam.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Editar e executar o código