CommencerCommencer gratuitement

Répondre à des questions avec des enchaînements

Quand vous avez une question précise sur un jeu de données, vous pouvez trouver la réponse en construisant avec soin la chaîne de code R appropriée. Par exemple, considérez la question suivante : « Parmi les e-mails non-spam, la longueur typique des e-mails est-elle plus courte pour ceux envoyés à plusieurs destinataires ? »

On peut y répondre avec la chaîne suivante :

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

Ce code montre clairement que vous utilisez num_char pour mesurer la longueur d’un e-mail et median() comme mesure de la valeur typique. Si vous exécutez ce code, vous verrez que la réponse à la question est « oui » : la longueur typique des e-mails non-spam envoyés à plusieurs personnes est un peu plus faible que celle des e-mails envoyés à une seule personne.

Cette chaîne se termine par des statistiques récapitulatives, mais d’autres peuvent aboutir à un graphique ; tout dépend de la question à laquelle vous cherchez à répondre.

Cet exercice fait partie du cours

Analyse exploratoire des données en R

Afficher le cours

Instructions

Construisez une chaîne pour répondre à chacune des questions suivantes, toutes deux à propos de la variable dollar.

  • Pour les e-mails contenant le mot « dollar », un e-mail spam typique contient-il un nombre d’occurrences du mot supérieur à celui d’un e-mail non-spam typique ? Créez une statistique récapitulative qui réponde à cette question.
  • Si vous rencontrez un e-mail avec plus de 10 occurrences du mot dollar, a-t-il plus de chances d’être spam ou non-spam ? Créez un diagramme en barres qui réponde à cette question.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Question 1
email %>%
  filter(___) %>%
  group_by(___) %>%
  summarize(___)

# Question 2
email %>%
  filter(___) %>%
  ggplot(aes(x = ___)) +
  geom_bar()
Modifier et exécuter le code