CommencerCommencer gratuitement

Étymologie

Maintenant que vous avez nettoyé le texte review et supprimé les mots vides et la ponctuation, vous êtes prêt à normaliser les mots restants à l'aide du lemmatisation afin de réduire les mots à leur forme racine. Cela permet de regrouper les mots similaires, rendant ainsi votre analyse plus cohérente et plus efficace.

La classe PorterStemmer a été fournie, ainsi qu'une liste d'clean_tokens.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Instructions

  • Veuillez initialiser l'PorterStemmer().
  • Utilisez une compréhension de liste pour extraire chaque token de la liste d'clean_tokens.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']

# Create stemmer
stemmer = ____()

# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]

print(stemmed_tokens)
Modifier et exécuter le code