Spam et !!!
Examinons un indicateur plus évident de spam : les points d’exclamation. exclaim_mess contient le nombre de points d’exclamation dans chaque message. À l’aide de statistiques descriptives et de visualisations, vérifiez s’il existe une relation entre cette variable et le fait qu’un message soit du spam ou non.
Expérimentez différents types de graphiques jusqu’à trouver celui qui est le plus informatif. Rappelez-vous que vous avez vu :
- Des boîtes à moustaches côte à côte
- Des histogrammes avec facettes
- Des courbes de densité superposées
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
Le jeu de données email est toujours disponible dans votre espace de travail.
- Calculez des mesures adaptées de tendance centrale et de dispersion de
exclaim_messpour le spam et le non-spam en utilisantgroup_by()etsummarize(). - Construisez un graphique approprié pour visualiser l’association entre ces deux mêmes variables, en ajoutant si besoin une transformation logarithmique.
- Si vous choisissez d’appliquer une transformation logarithmique, souvenez-vous que
log(0)vaut-Infen R, ce qui n’est pas très utile ! Vous pouvez contourner cela en ajoutant un petit nombre (par exemple0.01) à la quantité passée à la fonctionlog(). Ainsi, votre valeur n’est jamais nulle. Ce léger décalage vers la droite n’affectera pas vos résultats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess