Suppression des mots vides
Vous travaillez sur un projet dont l’objectif est de classer les retours d’utilisateurs en différentes catégories comme « problèmes de produit », « problèmes de service » et « suggestions ». Souvent, les mots vides n’apportent pas beaucoup d’information pour distinguer les catégories. Votre tâche est de supprimer ces mots vides afin de vous concentrer sur les termes importants qui aideront ensuite une machine à classer correctement les retours par thématique.
Les fonctions word_tokenize de nltk.tokenize et stopwords.words de nltk.corpus ont été importées pour vous. De plus, les ressources NLTK punkt_tab et stopwords ont déjà été téléchargées.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Instructions
- Tokenisez le retour fourni en mots.
- Récupérez la liste des stopwords en anglais.
- Supprimez les mots vides anglais et enregistrez le résultat dans
filtered_tokens.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)