Nettoyer et compter
Supprimez les mots vides pour explorer uniquement le contenu des tweets de compagnies aériennes classés comme réclamations dans twitter_data.
Cet exercice fait partie du cours
Introduction à l’analyse de texte en R
Instructions
- Tokenisez les tweets dans
twitter_data. Nommez la colonne contenant les mots tokenisésword. - Supprimez les mots vides par défaut des tweets tokenisés de
twitter_data. - Filtrez pour ne garder que les réclamations.
- Calculez les fréquences de mots à partir du texte tokenisé et nettoyé, puis triez par ordre décroissant du nombre.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)