ComeçarComece de graça

Removendo stop words

Você está trabalhando em um projeto cujo objetivo é classificar feedbacks de usuários em diferentes categorias, como "product issues", "service issues" e "suggestions". Muitas vezes, stop words não ajudam a diferenciar essas categorias. Sua tarefa é remover essas stop words para focar nas palavras importantes que vão ajudar uma máquina, depois, a categorizar o feedback nos tópicos corretos.

As funções word_tokenize de nltk.tokenize e stopwords.words de nltk.corpus já foram importadas para você. Além disso, os recursos do NLTK punkt_tab e stopwords já foram baixados.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Instruções do exercício

  • Tokenize o feedback fornecido em palavras.
  • Obtenha a lista de stopwords em inglês.
  • Remova as stop words em inglês e salve o resultado em filtered_tokens.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"

# Tokenize the text
tokens = word_tokenize(____)

# Get the list of English stop words
stop_words = stopwords.____('____')

# Remove stop words 
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]

print(filtered_tokens)
Editar e executar o código