Eliminar stop words
Estás trabajando en un proyecto cuyo objetivo es clasificar el feedback de usuarios en diferentes categorías como "product issues", "service issues" y "suggestions". A menudo, las stop words no aportan mucho significado para distinguir entre categorías. Tu tarea es eliminar estas stop words para centrarte en las palabras importantes que ayudarán a que una máquina clasifique más adelante el feedback en los temas correctos.
Las funciones word_tokenize de nltk.tokenize y stopwords.words de nltk.corpus ya se han importado por ti. Además, los recursos de NLTK punkt_tab y stopwords ya se han descargado.
Este ejercicio forma parte del curso
Natural Language Processing (NLP) en Python
Instrucciones del ejercicio
- Tokeniza el feedback proporcionado en palabras.
- Obtén la lista de stopwords en inglés.
- Elimina las stop words en inglés y guarda el resultado en
filtered_tokens.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)