ComenzarEmpieza gratis

Spam y num_char

¿Hay alguna asociación entre el spam y la longitud de un email? Se podría justificar de ambas maneras:

  • El spam es más probable que sea un mensaje corto que me tienta a hacer clic en un enlace, o
  • Mi correo normal suele ser más corto porque intercambio emails breves con mis amistades todo el tiempo.

Aquí vas a usar el conjunto de datos email para resolver esa cuestión. Empieza consultando la ayuda y conociendo todas las variables con ?email.

Mientras exploras la asociación entre el spam y la longitud de un email, aprovecha para probar cómo enlazar una cadena de dplyr con las capas de un objeto de ggplot2.

Este ejercicio forma parte del curso

Análisis exploratorio de datos en R

Ver curso

Instrucciones del ejercicio

Usando el conjunto de datos email

  • Carga los paquetes ggplot2, dplyr y openintro.
  • Calcula medidas adecuadas de tendencia central y dispersión de num_char para spam y no spam usando group_by() y summarize(). No es necesario nombrar las nuevas columnas creadas por summarize().
  • Construye diagramas de caja en paralelo para visualizar la asociación entre esas dos variables. Te resultará útil mutate() para crear una nueva columna que contenga una versión de num_char transformada con logaritmo.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Editar y ejecutar código