Opérateurs de chaînes avec les données Twitter
Vous continuez à travailler avec les données tweets où la colonne text contient le contenu de chaque tweet.
Votre tâche consiste à transformer la colonne text en une liste de jetons. Ensuite, à l’aide d’opérateurs de chaînes, supprimez tous les caractères non alphabétiques de la liste de jetons créée.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez la fonction de tokenisation de mots.
- Créez des jetons de mots à partir de chaque tweet.
- Filtrez tous les caractères non alphabétiques de la liste créée, c’est-à-dire conservez uniquement les lettres.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the word tokenizing package
____
# Tokenize the text column
word_tokens = [____(review) for review in tweets.text]
print('Original tokens: ', word_tokens[0])
# Filter out non-letter characters
cleaned_tokens = [[word for word in item if ____.____] for item in word_tokens]
print('Cleaned tokens: ', cleaned_tokens[0])