Opérateurs de chaînes avec les données Twitter

Vous continuez à travailler avec les données tweets où la colonne text contient le contenu de chaque tweet.

Votre tâche consiste à transformer la colonne text en une liste de jetons. Ensuite, à l’aide d’opérateurs de chaînes, supprimez tous les caractères non alphabétiques de la liste de jetons créée.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Importez la fonction de tokenisation de mots.
Créez des jetons de mots à partir de chaque tweet.
Filtrez tous les caractères non alphabétiques de la liste créée, c’est-à-dire conservez uniquement les lettres.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the word tokenizing package
____

# Tokenize the text column
word_tokens = [____(review) for review in tweets.text]
print('Original tokens: ', word_tokens[0])

# Filter out non-letter characters
cleaned_tokens = [[word for word in item if ____.____] for item in word_tokens]
print('Cleaned tokens: ', cleaned_tokens[0])

Modifier et exécuter le code