Tirando palavras que não servem
Você está trabalhando num projeto onde o objetivo é classificar o feedback dos usuários em diferentes categorias, como “problemas com o produto”, “problemas com o serviço” e “sugestões”. Muitas vezes, as palavras irrelevantes não têm muito significado na hora de diferenciar categorias. A tua tarefa é tirar essas palavras que não servem pra nada pra focar nas palavras importantes que vão ajudar a máquina a categorizar o feedback nos tópicos certos mais tarde.
As funções word_tokenize
de nltk.tokenize
e stopwords.words
de nltk.corpus
foram importadas para você. Além disso, os recursos NLTK punkt_tab
e stopwords
já foram baixados.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Transforme o feedback que você recebeu em palavras.
- Pega a lista de palavras irrelevantes em inglês.
- Tira as palavras que não servem em inglês e guarda o resultado em
filtered_tokens
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)