Stemming
Maintenant que vous avez nettoyé le texte review et supprimé les stop words et la ponctuation, vous pouvez normaliser les mots restants avec le stemming pour les réduire à leur forme racine. Cela permet de regrouper des termes similaires et rend votre analyse plus cohérente et plus efficace.
La classe PorterStemmer vous est fournie, ainsi qu’une liste de clean_tokens.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Instructions
- Initialisez
PorterStemmer(). - Utilisez une compréhension de liste pour appliquer le stemming à chaque jeton de la liste
clean_tokens.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create stemmer
stemmer = ____()
# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]
print(stemmed_tokens)