Racines (stems) à partir de tweets
Dans cet exercice, vous allez travailler avec un tableau appelé tweets. Il contient le texte des données de sentiment sur les compagnies aériennes collectées sur Twitter.
Votre tâche consiste à travailler avec ce tableau et à le transformer en une liste de tokens à l'aide d'une compréhension de liste. Ensuite, parcourez la liste de tokens et créez la racine (stem) de chaque token. Rappelez-vous que les compréhensions de liste sont une alternative sur une seule ligne aux boucles for.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez la fonction utilisée pour transformer des chaînes en racines (stems).
- Appelez la fonction Porter stemmer que vous venez d'importer.
- À l'aide d'une compréhension de liste, créez la liste
tokens. Elle doit contenir tous les tokens de mots issus du tableautweets. - Parcourez la liste
tokenset appliquez la fonction de stemming à chaque élément de la liste.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the function to perform stemming
____
from nltk import word_tokenize
# Call the stemmer
porter = ____()
# Transform the array of tweets to tokens
tokens = [____]
# Stem the list of tokens
stemmed_tokens = [[____.____(word) for word in tweet] for tweet in tokens]
# Print the first element of the list
print(stemmed_tokens[0])