CommencerCommencez gratuitement

Regrouper des modalités

S’il était déjà difficile de travailler avec la forte asymétrie de exclaim_mess, le nombre d’images jointes à chaque e-mail (image) est encore plus délicat. Exécutez le code suivant dans la console pour avoir une idée de sa distribution :

table(email$image)

Rappelez-vous que cela comptabilise le nombre de cas dans chaque catégorie (il y avait par exemple 3811 e-mails avec 0 image). Étant donné les effectifs très faibles pour les nombres d’images élevés, regroupons image en une variable catégorielle indiquant si l’e-mail contient au moins une image ou non. Dans cet exercice, vous allez créer cette nouvelle variable et explorer son lien avec le spam.

Cet exercice fait partie du cours

<cours>Analyse exploratoire des données en R</cours>
Voir le cours

Instructions de l’exercice

En partant de email, créez une chaîne continue qui enchaîne les tâches suivantes :

  • Créez une nouvelle variable appelée has_image qui vaut TRUE lorsque le nombre d’images est strictement supérieur à zéro et FALSE sinon.
  • Créez un graphique approprié avec email pour visualiser la relation entre has_image et spam.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Modifier et exécuter le code