Nettoyer et compter

Supprimez les mots vides pour explorer uniquement le contenu des tweets de compagnies aériennes classés comme réclamations dans twitter_data.

Cet exercice fait partie du cours

Introduction à l’analyse de texte en R

Afficher le cours

Instructions

Tokenisez les tweets dans twitter_data. Nommez la colonne contenant les mots tokenisés word.
Supprimez les mots vides par défaut des tweets tokenisés de twitter_data.
Filtrez pour ne garder que les réclamations.
Calculez les fréquences de mots à partir du texte tokenisé et nettoyé, puis triez par ordre décroissant du nombre.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)

Modifier et exécuter le code