Regrouper des modalités
S’il était déjà difficile de travailler avec la forte asymétrie de exclaim_mess, le nombre d’images jointes à chaque e-mail (image) est encore plus délicat. Exécutez le code suivant dans la console pour avoir une idée de sa distribution :
table(email$image)
Rappelez-vous que cela comptabilise le nombre de cas dans chaque catégorie (il y avait par exemple 3811 e-mails avec 0 image). Étant donné les effectifs très faibles pour les nombres d’images élevés, regroupons image en une variable catégorielle indiquant si l’e-mail contient au moins une image ou non. Dans cet exercice, vous allez créer cette nouvelle variable et explorer son lien avec le spam.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
En partant de email, créez une chaîne continue qui enchaîne les tâches suivantes :
- Créez une nouvelle variable appelée
has_imagequi vautTRUElorsque le nombre d’images est strictement supérieur à zéro etFALSEsinon. - Créez un graphique approprié avec
emailpour visualiser la relation entrehas_imageetspam.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)