Removendo stop words
Você está trabalhando em um projeto cujo objetivo é classificar feedbacks de usuários em diferentes categorias, como "product issues", "service issues" e "suggestions". Muitas vezes, stop words não ajudam a diferenciar essas categorias. Sua tarefa é remover essas stop words para focar nas palavras importantes que vão ajudar uma máquina, depois, a categorizar o feedback nos tópicos corretos.
As funções word_tokenize de nltk.tokenize e stopwords.words de nltk.corpus já foram importadas para você. Além disso, os recursos do NLTK punkt_tab e stopwords já foram baixados.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Tokenize o feedback fornecido em palavras.
- Obtenha a lista de stopwords em inglês.
- Remova as stop words em inglês e salve o resultado em
filtered_tokens.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)