ComenzarEmpieza gratis

Spam y !!!

Veamos un indicador de spam más evidente: los signos de exclamación. exclaim_mess contiene el número de signos de exclamación en cada mensaje. Usando estadísticas resumidas y visualización, comprueba si hay relación entre esta variable y si un mensaje es spam o no.

Prueba con distintos tipos de gráficos hasta que encuentres el más informativo. Recuerda que has visto:

  • Diagramas de caja en paralelo
  • Histogramas facetados
  • Densidades superpuestas

Este ejercicio forma parte del curso

Análisis exploratorio de datos en R

Ver curso

Instrucciones del ejercicio

El conjunto de datos email sigue disponible en tu espacio de trabajo.

  • Calcula medidas adecuadas de tendencia central y dispersión de exclaim_mess tanto para spam como para no spam usando group_by() y summarize().
  • Construye un gráfico adecuado para visualizar la asociación entre esas dos variables, añadiendo una transformación logarítmica si es necesario.
  • Si decides usar una transformación logarítmica, recuerda que log(0) es -Inf en R, lo cual no es muy útil. Puedes evitarlo añadiendo un número pequeño (como 0.01) a la cantidad dentro de la función log(). Así, tu valor nunca será cero. Este pequeño desplazamiento a la derecha no afectará a tus resultados.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Editar y ejecutar código