CommencerCommencer gratuitement

Spam et !!!

Examinons un indicateur plus évident de spam : les points d’exclamation. exclaim_mess contient le nombre de points d’exclamation dans chaque message. À l’aide de statistiques descriptives et de visualisations, vérifiez s’il existe une relation entre cette variable et le fait qu’un message soit du spam ou non.

Expérimentez différents types de graphiques jusqu’à trouver celui qui est le plus informatif. Rappelez-vous que vous avez vu :

  • Des boîtes à moustaches côte à côte
  • Des histogrammes avec facettes
  • Des courbes de densité superposées

Cet exercice fait partie du cours

Analyse exploratoire des données en R

Afficher le cours

Instructions

Le jeu de données email est toujours disponible dans votre espace de travail.

  • Calculez des mesures adaptées de tendance centrale et de dispersion de exclaim_mess pour le spam et le non-spam en utilisant group_by() et summarize().
  • Construisez un graphique approprié pour visualiser l’association entre ces deux mêmes variables, en ajoutant si besoin une transformation logarithmique.
  • Si vous choisissez d’appliquer une transformation logarithmique, souvenez-vous que log(0) vaut -Inf en R, ce qui n’est pas très utile ! Vous pouvez contourner cela en ajoutant un petit nombre (par exemple 0.01) à la quantité passée à la fonction log(). Ainsi, votre valeur n’est jamais nulle. Ce léger décalage vers la droite n’affectera pas vos résultats.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Modifier et exécuter le code