Compter les types d’utilisateurs
Les décomptes sont le résumé de base pour les données catégorielles. Comme le texte est catégoriel, il est important d’être à l’aise avec le calcul de décomptes. Le jeu de données twitter_data est composé de plaintes et de non-plaintes, comme l’indique la colonne complaint_label, et comprend également une colonne indiquant si l’utilisateur est vérifié ou non (c’est‑à‑dire confirmé par Twitter comme étant bien la personne qu’il prétend être), appelée usr_verified. Notez que cette colonne est de type <lgl>, c’est‑à‑dire logique. Les utilisateurs vérifiés se plaignent‑ils davantage ?
Cet exercice fait partie du cours
Introduction à l’analyse de texte en R
Instructions
- Chargez le package
tidyverse, qui inclutdplyretggplot2. - Filtrez les données pour ne conserver que les tweets qui sont des plaintes.
- Comptez le nombre d’utilisateurs vérifiés et non vérifiés ayant déposé une plainte.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the tidyverse package
___(___)
twitter_data %>%
# Filter for just the complaints
___(___) %>%
# Count the number of verified and non-verified users
___(___)