Racines (stems) à partir de tweets

Dans cet exercice, vous allez travailler avec un tableau appelé tweets. Il contient le texte des données de sentiment sur les compagnies aériennes collectées sur Twitter.

Votre tâche consiste à travailler avec ce tableau et à le transformer en une liste de tokens à l'aide d'une compréhension de liste. Ensuite, parcourez la liste de tokens et créez la racine (stem) de chaque token. Rappelez-vous que les compréhensions de liste sont une alternative sur une seule ligne aux boucles for.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>

Voir le cours

Instructions de l’exercice

Importez la fonction utilisée pour transformer des chaînes en racines (stems).
Appelez la fonction Porter stemmer que vous venez d'importer.
À l'aide d'une compréhension de liste, créez la liste tokens. Elle doit contenir tous les tokens de mots issus du tableau tweets.
Parcourez la liste tokens et appliquez la fonction de stemming à chaque élément de la liste.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the function to perform stemming
____
from nltk import word_tokenize

# Call the stemmer
porter = ____()

# Transform the array of tweets to tokens
tokens = [____]
# Stem the list of tokens
stemmed_tokens = [[____.____(word) for word in tweet] for tweet in tokens] 
# Print the first element of the list
print(stemmed_tokens[0])

Modifier et exécuter le code