Reagrupando níveis
Se já foi difícil lidar com a forte assimetria de exclaim_mess, o número de imagens anexadas a cada e-mail (image) traz um desafio ainda maior. Execute o código a seguir no console para ter uma noção da distribuição:
table(email$image)
Lembre-se de que isso tabula o número de casos em cada categoria (por exemplo, havia 3811 e-mails com 0 imagens). Dadas as contagens muito baixas nos números mais altos de imagens, vamos agrupar image em uma variável categórica que indica se o e-mail tem pelo menos uma imagem ou não. Neste exercício, você vai criar essa nova variável e explorar sua associação com spam.
Este exercício faz parte do curso
Análise Exploratória de Dados em R
Instruções do exercício
Começando com email, forme uma cadeia contínua que conecte as seguintes tarefas:
- Crie uma nova variável chamada
has_imageque sejaTRUEquando o número de imagens for maior que zero eFALSEcaso contrário. - Crie um gráfico apropriado com
emailpara visualizar a relação entrehas_imageespam.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)