CommencerCommencer gratuitement

Suppression des mots vides

Vous travaillez sur un projet dont l’objectif est de classer les retours d’utilisateurs en différentes catégories comme « problèmes de produit », « problèmes de service » et « suggestions ». Souvent, les mots vides n’apportent pas beaucoup d’information pour distinguer les catégories. Votre tâche est de supprimer ces mots vides afin de vous concentrer sur les termes importants qui aideront ensuite une machine à classer correctement les retours par thématique.

Les fonctions word_tokenize de nltk.tokenize et stopwords.words de nltk.corpus ont été importées pour vous. De plus, les ressources NLTK punkt_tab et stopwords ont déjà été téléchargées.

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

Afficher le cours

Instructions

  • Tokenisez le retour fourni en mots.
  • Récupérez la liste des stopwords en anglais.
  • Supprimez les mots vides anglais et enregistrez le résultat dans filtered_tokens.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"

# Tokenize the text
tokens = word_tokenize(____)

# Get the list of English stop words
stop_words = stopwords.____('____')

# Remove stop words 
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]

print(filtered_tokens)
Modifier et exécuter le code