Níveis em colapso
Se já era difícil trabalhar com a forte inclinação de exclaim_mess, o número de imagens anexadas a cada e-mail (image) representa um desafio ainda maior. Execute o código a seguir no console para ter uma ideia de sua distribuição:
table(email$image)
Lembre-se de que isso tabula o número de casos em cada categoria (portanto, havia 3811 e-mails com 0 imagens, por exemplo). Considerando as contagens muito baixas no número mais alto de imagens, vamos reduzir image a uma variável categórica que indica se o e-mail tinha ou não pelo menos uma imagem. Neste exercício, você criará essa nova variável e explorará sua associação com o spam.
Este exercício faz parte do curso
Análise exploratória de dados em R
Instruções do exercício
Começando com email, forme uma cadeia contínua que conecte as tarefas a seguir:
- Crie uma nova variável chamada
has_imageque sejaTRUEquando o número de imagens for maior que zero eFALSEcaso contrário. - Crie um gráfico apropriado com
emailpara visualizar a relação entrehas_imageespam.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)