Agrupar niveles
Si ya fue difícil trabajar con la fuerte asimetría de exclaim_mess, el número de imágenes adjuntas a cada correo (image) supone un reto aún mayor. Ejecuta el siguiente código en la consola para hacerte una idea de su distribución:
table(email$image)
Recuerda que esto tabula el número de casos en cada categoría (por ejemplo, hubo 3811 correos con 0 imágenes). Dado el recuento muy bajo en los valores altos de número de imágenes, agrupemos image en una variable categórica que indique si el correo tenía al menos una imagen o no. En este ejercicio, crearás esta nueva variable y explorarás su relación con el spam.
Este ejercicio forma parte del curso
Análisis exploratorio de datos en R
Instrucciones del ejercicio
Empezando con email, forma una cadena continua que enlace las siguientes tareas:
- Crea una nueva variable llamada
has_imageque seaTRUEcuando el número de imágenes sea mayor que cero yFALSEen caso contrario. - Crea una visualización adecuada con
emailpara mostrar la relación entrehas_imageyspam.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)