Tokenisation et comptage
Explorez le contenu des tweets de compagnies aériennes dans twitter_data à l'aide de comptages de mots. Le contenu de chaque tweet se trouve dans la colonne tweet_text.
Cet exercice fait partie du cours
Introduction à l’analyse de texte en R
Instructions
- Chargez les packages tidyverse et tidytext.
- Tokenisez les tweets de la colonne
tweet_text. - Calculez les fréquences des mots à partir du texte tokenisé.
- Triez les comptes par ordre décroissant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the tidyverse and tidytext packages
___(___)
___(___)
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(word, ___)
tidy_twitter %>%
# Compute word counts
___(___) %>%
# Arrange the counts in descending order
___(___)