Responder preguntas con encadenamientos

Cuando tienes una pregunta concreta sobre un conjunto de datos, puedes llegar a la respuesta construyendo con cuidado el encadenamiento adecuado de código en R. Por ejemplo, considera la siguiente pregunta: "Dentro de los correos no spam, ¿la longitud típica de los correos es menor en los que se enviaron a varias personas?"

Esto se puede responder con el siguiente encadenamiento:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

El código deja claro que estás usando num_char para medir la longitud de un correo y median() como medida de lo típico. Si ejecutas este código, verás que la respuesta a la pregunta es "sí": la longitud típica de los correos no spam enviados a varias personas es un poco menor que la de los enviados a una sola persona.

Este encadenamiento termina con estadísticas de resumen, pero otros podrían acabar en un gráfico; todo depende de la pregunta que quieras responder.

Este ejercicio forma parte del curso

Análisis exploratorio de datos en R

Ver curso

Instrucciones del ejercicio

Crea un encadenamiento para responder a cada una de las siguientes preguntas, ambas sobre la variable dollar.

En los correos que contienen la palabra "dollar", ¿el correo típico de spam contiene un mayor número de apariciones de la palabra que el correo típico de no spam? Crea una estadística de resumen que responda a esta pregunta.
Si te encuentras con un correo con más de 10 apariciones de la palabra dollar, ¿es más probable que sea spam o not-spam? Crea un gráfico de barras que responda a esta pregunta.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Question 1
email %>%
  filter(___) %>%
  group_by(___) %>%
  summarize(___)

# Question 2
email %>%
  filter(___) %>%
  ggplot(aes(x = ___)) +
  geom_bar()

Editar y ejecutar código