Regrouper des modalités
S’il était déjà difficile de travailler avec la forte asymétrie de exclaim_mess, le nombre d’images jointes à chaque e-mail (image) est encore plus délicat. Exécutez le code suivant dans la console pour avoir une idée de sa distribution :
table(email$image)
Rappelez-vous que cela comptabilise le nombre de cas dans chaque catégorie (il y avait par exemple 3811 e-mails avec 0 image). Étant donné les effectifs très faibles pour les nombres d’images élevés, regroupons image en une variable catégorielle indiquant si l’e-mail contient au moins une image ou non. Dans cet exercice, vous allez créer cette nouvelle variable et explorer son lien avec le spam.
Cet exercice fait partie du cours
<cours>Analyse exploratoire des données en R</cours>Instructions de l’exercice
En partant de email, créez une chaîne continue qui enchaîne les tâches suivantes :
- Créez une nouvelle variable appelée
has_imagequi vautTRUElorsque le nombre d’images est strictement supérieur à zéro etFALSEsinon. - Créez un graphique approprié avec
emailpour visualiser la relation entrehas_imageetspam.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)