Spam y num_char
¿Hay alguna asociación entre el spam y la longitud de un email? Se podría justificar de ambas maneras:
- El spam es más probable que sea un mensaje corto que me tienta a hacer clic en un enlace, o
- Mi correo normal suele ser más corto porque intercambio emails breves con mis amistades todo el tiempo.
Aquí vas a usar el conjunto de datos email para resolver esa cuestión. Empieza consultando la ayuda y conociendo todas las variables con ?email.
Mientras exploras la asociación entre el spam y la longitud de un email, aprovecha para probar cómo enlazar una cadena de dplyr con las capas de un objeto de ggplot2.
Este ejercicio forma parte del curso
Análisis exploratorio de datos en R
Instrucciones del ejercicio
Usando el conjunto de datos email
- Carga los paquetes
ggplot2,dplyryopenintro. - Calcula medidas adecuadas de tendencia central y dispersión de
num_charpara spam y no spam usandogroup_by()ysummarize(). No es necesario nombrar las nuevas columnas creadas porsummarize(). - Construye diagramas de caja en paralelo para visualizar la asociación entre esas dos variables. Te resultará útil
mutate()para crear una nueva columna que contenga una versión denum_chartransformada con logaritmo.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___