ComenzarEmpieza gratis

Agrupar niveles

Si ya fue difícil trabajar con la fuerte asimetría de exclaim_mess, el número de imágenes adjuntas a cada correo (image) supone un reto aún mayor. Ejecuta el siguiente código en la consola para hacerte una idea de su distribución:

table(email$image)

Recuerda que esto tabula el número de casos en cada categoría (por ejemplo, hubo 3811 correos con 0 imágenes). Dado el recuento muy bajo en los valores altos de número de imágenes, agrupemos image en una variable categórica que indique si el correo tenía al menos una imagen o no. En este ejercicio, crearás esta nueva variable y explorarás su relación con el spam.

Este ejercicio forma parte del curso

Análisis exploratorio de datos en R

Ver curso

Instrucciones del ejercicio

Empezando con email, forma una cadena continua que enlace las siguientes tareas:

  • Crea una nueva variable llamada has_image que sea TRUE cuando el número de imágenes sea mayor que cero y FALSE en caso contrario.
  • Crea una visualización adecuada con email para mostrar la relación entre has_image y spam.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Editar y ejecutar código