Tokenisation et comptage

Explorez le contenu des tweets de compagnies aériennes dans twitter_data à l'aide de comptages de mots. Le contenu de chaque tweet se trouve dans la colonne tweet_text.

Cet exercice fait partie du cours

<cours>Introduction à l’analyse de texte en R</cours>

Voir le cours

Instructions de l’exercice

Chargez les packages tidyverse et tidytext.
Tokenisez les tweets de la colonne tweet_text.
Calculez les fréquences des mots à partir du texte tokenisé.
Triez les comptes par ordre décroissant.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load the tidyverse and tidytext packages
___(___)
___(___)

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(word, ___) 

tidy_twitter %>% 
  # Compute word counts
  ___(___) %>% 
  # Arrange the counts in descending order
  ___(___)

Modifier et exécuter le code