Níveis em colapso
Se já era difícil trabalhar com a forte inclinação de exclaim_mess
, o número de imagens anexadas a cada e-mail (image
) representa um desafio ainda maior. Execute o código a seguir no console para ter uma ideia de sua distribuição:
table(email$image)
Lembre-se de que isso tabula o número de casos em cada categoria (portanto, havia 3811 e-mails com 0 imagens, por exemplo). Considerando as contagens muito baixas no número mais alto de imagens, vamos reduzir image
a uma variável categórica que indica se o e-mail tinha ou não pelo menos uma imagem. Neste exercício, você criará essa nova variável e explorará sua associação com o spam.
Este exercício faz parte do curso
Análise exploratória de dados em R
Instruções de exercício
Começando com email
, forme uma cadeia contínua que conecte as tarefas a seguir:
- Crie uma nova variável chamada
has_image
que sejaTRUE
quando o número de imagens for maior que zero eFALSE
caso contrário. - Crie um gráfico apropriado com
email
para visualizar a relação entrehas_image
espam
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)