CommencerCommencer gratuitement

Spam et num_char

Existe-t-il un lien entre le spam et la longueur d’un e-mail ? On peut imaginer des arguments dans les deux sens :

  • Le spam est plus souvent un court message qui m’incite à cliquer sur un lien, ou
  • Mes e-mails habituels sont plutôt courts, car j’échange souvent de brefs messages avec mes amis.

Ici, vous allez utiliser le jeu de données email pour trancher la question. Commencez par ouvrir l’aide et découvrir toutes les variables avec ?email.

En explorant l’association entre le spam et la longueur d’un e-mail, profitez-en pour essayer de chaîner un flux dplyr avec les couches d’un objet ggplot2.

Cet exercice fait partie du cours

Analyse exploratoire des données en R

Afficher le cours

Instructions

En utilisant le jeu de données email

  • Chargez les packages ggplot2, dplyr et openintro.
  • Calculez des mesures adaptées de tendance centrale et de dispersion de num_char pour les e-mails spam et non spam à l’aide de group_by() et summarize(). Inutile de nommer les nouvelles colonnes créées par summarize().
  • Construisez des boîtes à moustaches côte à côte pour visualiser l’association entre ces deux mêmes variables. Il sera utile de mutate() une nouvelle colonne contenant une version de num_char transformée en logarithme.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Modifier et exécuter le code