ComeçarComece gratuitamente

Níveis em colapso

Se já era difícil trabalhar com a forte inclinação de exclaim_mess, o número de imagens anexadas a cada e-mail (image) representa um desafio ainda maior. Execute o código a seguir no console para ter uma ideia de sua distribuição:

table(email$image)

Lembre-se de que isso tabula o número de casos em cada categoria (portanto, havia 3811 e-mails com 0 imagens, por exemplo). Considerando as contagens muito baixas no número mais alto de imagens, vamos reduzir image a uma variável categórica que indica se o e-mail tinha ou não pelo menos uma imagem. Neste exercício, você criará essa nova variável e explorará sua associação com o spam.

Este exercício faz parte do curso

Análise exploratória de dados em R

Ver Curso

Instruções de exercício

Começando com email, forme uma cadeia contínua que conecte as tarefas a seguir:

  • Crie uma nova variável chamada has_image que seja TRUE quando o número de imagens for maior que zero e FALSE caso contrário.
  • Crie um gráfico apropriado com email para visualizar a relação entre has_image e spam.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Editar e executar código