Spam et num_char
Existe-t-il un lien entre le spam et la longueur d’un e-mail ? On peut imaginer des arguments dans les deux sens :
- Le spam est plus souvent un court message qui m’incite à cliquer sur un lien, ou
- Mes e-mails habituels sont plutôt courts, car j’échange souvent de brefs messages avec mes amis.
Ici, vous allez utiliser le jeu de données email pour trancher la question. Commencez par ouvrir l’aide et découvrir toutes les variables avec ?email.
En explorant l’association entre le spam et la longueur d’un e-mail, profitez-en pour essayer de chaîner un flux dplyr avec les couches d’un objet ggplot2.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
En utilisant le jeu de données email
- Chargez les packages
ggplot2,dplyretopenintro. - Calculez des mesures adaptées de tendance centrale et de dispersion de
num_charpour les e-mails spam et non spam à l’aide degroup_by()etsummarize(). Inutile de nommer les nouvelles colonnes créées parsummarize(). - Construisez des boîtes à moustaches côte à côte pour visualiser l’association entre ces deux mêmes variables. Il sera utile de
mutate()une nouvelle colonne contenant une version denum_chartransformée en logarithme.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___