Répondre à des questions avec des enchaînements
Quand vous avez une question précise sur un jeu de données, vous pouvez trouver la réponse en construisant avec soin la chaîne de code R appropriée. Par exemple, considérez la question suivante : « Parmi les e-mails non-spam, la longueur typique des e-mails est-elle plus courte pour ceux envoyés à plusieurs destinataires ? »
On peut y répondre avec la chaîne suivante :
email %>%
filter(spam == "not-spam") %>%
group_by(to_multiple) %>%
summarize(median(num_char))
Ce code montre clairement que vous utilisez num_char pour mesurer la longueur d’un e-mail et median() comme mesure de la valeur typique. Si vous exécutez ce code, vous verrez que la réponse à la question est « oui » : la longueur typique des e-mails non-spam envoyés à plusieurs personnes est un peu plus faible que celle des e-mails envoyés à une seule personne.
Cette chaîne se termine par des statistiques récapitulatives, mais d’autres peuvent aboutir à un graphique ; tout dépend de la question à laquelle vous cherchez à répondre.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
Construisez une chaîne pour répondre à chacune des questions suivantes, toutes deux à propos de la variable dollar.
- Pour les e-mails contenant le mot « dollar », un e-mail spam typique contient-il un nombre d’occurrences du mot supérieur à celui d’un e-mail non-spam typique ? Créez une statistique récapitulative qui réponde à cette question.
- Si vous rencontrez un e-mail avec plus de 10 occurrences du mot
dollar, a-t-il plus de chances d’être spam ou non-spam ? Créez un diagramme en barres qui réponde à cette question.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Question 1
email %>%
filter(___) %>%
group_by(___) %>%
summarize(___)
# Question 2
email %>%
filter(___) %>%
ggplot(aes(x = ___)) +
geom_bar()