Synthèses par groupe
Il y a donc plus de non-plaintes que de plaintes dans twitter_data. Vous commencez peut-être à vous demander si ces données viennent vraiment de Twitter ! D’autres colonnes intéressantes dans twitter_data méritent d’être explorées avant d’examiner les tweets eux-mêmes. Chaque tweet comporte le nombre d’abonnés de l’utilisateur dans la colonne usr_followers_count. Attendez-vous à ce que les personnes qui se plaignent aient, en moyenne, plus ou moins d’abonnés que celles qui ne se plaignent pas ? Vous pouvez utiliser des synthèses par groupe pour obtenir rapidement une réponse.
Cet exercice fait partie du cours
Introduction à l’analyse de texte en R
Instructions
- Regroupez les données par
complaint_label. - Calculez le nombre moyen, minimal et maximal de
usr_followers_count.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Start with the data frame
___ %>%
# Group the data by whether or not the tweet is a complaint
___(___) %>%
# Compute the mean, min, and max follower counts
summarize(
avg_followers = ___(___),
min_followers = ___(___),
max_followers = ___(___)
)