CommencerCommencer gratuitement

Opérateurs de chaînes avec les données Twitter

Vous continuez à travailler avec les données tweets où la colonne text contient le contenu de chaque tweet.

Votre tâche consiste à transformer la colonne text en une liste de jetons. Ensuite, à l’aide d’opérateurs de chaînes, supprimez tous les caractères non alphabétiques de la liste de jetons créée.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Instructions

  • Importez la fonction de tokenisation de mots.
  • Créez des jetons de mots à partir de chaque tweet.
  • Filtrez tous les caractères non alphabétiques de la liste créée, c’est-à-dire conservez uniquement les lettres.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the word tokenizing package
____

# Tokenize the text column
word_tokens = [____(review) for review in tweets.text]
print('Original tokens: ', word_tokens[0])

# Filter out non-letter characters
cleaned_tokens = [[word for word in item if ____.____] for item in word_tokens]
print('Cleaned tokens: ', cleaned_tokens[0])
Modifier et exécuter le code