ComeçarComece de graça

Tirando palavras que não servem

Você está trabalhando num projeto onde o objetivo é classificar o feedback dos usuários em diferentes categorias, como “problemas com o produto”, “problemas com o serviço” e “sugestões”. Muitas vezes, as palavras irrelevantes não têm muito significado na hora de diferenciar categorias. A tua tarefa é tirar essas palavras que não servem pra nada pra focar nas palavras importantes que vão ajudar a máquina a categorizar o feedback nos tópicos certos mais tarde.

As funções word_tokenize de nltk.tokenize e stopwords.words de nltk.corpus foram importadas para você. Além disso, os recursos NLTK punkt_tab e stopwords já foram baixados.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Instruções do exercício

  • Transforme o feedback que você recebeu em palavras.
  • Pega a lista de palavras irrelevantes em inglês.
  • Tira as palavras que não servem em inglês e guarda o resultado em filtered_tokens.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"

# Tokenize the text
tokens = word_tokenize(____)

# Get the list of English stop words
stop_words = stopwords.____('____')

# Remove stop words 
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]

print(filtered_tokens)
Editar e executar o código