CommencerCommencer gratuitement

Regrouper des modalités

S’il était déjà difficile de travailler avec la forte asymétrie de exclaim_mess, le nombre d’images jointes à chaque e-mail (image) est encore plus délicat. Exécutez le code suivant dans la console pour avoir une idée de sa distribution :

table(email$image)

Rappelez-vous que cela comptabilise le nombre de cas dans chaque catégorie (il y avait par exemple 3811 e-mails avec 0 image). Étant donné les effectifs très faibles pour les nombres d’images élevés, regroupons image en une variable catégorielle indiquant si l’e-mail contient au moins une image ou non. Dans cet exercice, vous allez créer cette nouvelle variable et explorer son lien avec le spam.

Cet exercice fait partie du cours

Analyse exploratoire des données en R

Afficher le cours

Instructions

En partant de email, créez une chaîne continue qui enchaîne les tâches suivantes :

  • Créez une nouvelle variable appelée has_image qui vaut TRUE lorsque le nombre d’images est strictement supérieur à zéro et FALSE sinon.
  • Créez un graphique approprié avec email pour visualiser la relation entre has_image et spam.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Modifier et exécuter le code