Suppression des mots vides
Vous travaillez sur un projet dont l'objectif est de classer les commentaires des utilisateurs dans différentes catégories telles que « problèmes liés au produit », « problèmes liés au service » et « suggestions ». Souvent, les mots vides n'ont pas beaucoup de sens pour distinguer les catégories. Votre tâche consiste à supprimer ces mots vides afin de vous concentrer sur les mots importants qui aideront ensuite une machine à classer les commentaires dans les bonnes catégories.
Les fonctions « word_tokenize
» provenant de nltk.tokenize
et « stopwords.words
» provenant de nltk.corpus
ont été importées pour vous. De plus, les ressources NLTK punkt_tab
et stopwords
ont déjà été téléchargées.
Cet exercice fait partie du cours
Traitement du langage naturel (NLP) en Python
Instructions
- Transformez les commentaires fournis en mots.
- Obtenir la liste des mots vides en anglais.
- Supprimez les mots vides anglais et enregistrez le résultat dans l'
filtered_tokens
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)