Spam y !!!
Veamos un indicador de spam más evidente: los signos de exclamación. exclaim_mess contiene el número de signos de exclamación en cada mensaje. Usando estadísticas resumidas y visualización, comprueba si hay relación entre esta variable y si un mensaje es spam o no.
Prueba con distintos tipos de gráficos hasta que encuentres el más informativo. Recuerda que has visto:
- Diagramas de caja en paralelo
- Histogramas facetados
- Densidades superpuestas
Este ejercicio forma parte del curso
Análisis exploratorio de datos en R
Instrucciones del ejercicio
El conjunto de datos email sigue disponible en tu espacio de trabajo.
- Calcula medidas adecuadas de tendencia central y dispersión de
exclaim_messtanto para spam como para no spam usandogroup_by()ysummarize(). - Construye un gráfico adecuado para visualizar la asociación entre esas dos variables, añadiendo una transformación logarítmica si es necesario.
- Si decides usar una transformación logarítmica, recuerda que
log(0)es-Infen R, lo cual no es muy útil. Puedes evitarlo añadiendo un número pequeño (como0.01) a la cantidad dentro de la funciónlog(). Así, tu valor nunca será cero. Este pequeño desplazamiento a la derecha no afectará a tus resultados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess