ComeçarComece de graça

Letras minúsculas (lowercasing)

Você está analisando avaliações de usuários para um site de viagens. Essas avaliações frequentemente têm capitalização inconsistente, como "TRAVEL" e "travel". Para preparar o texto para análise de sentimento e extração de tópicos, você primeiro vai converter todas as palavras para letras minúsculas, depois tokenizá-las e limpar stop words e pontuação.

A função word_tokenize() e uma lista stop_words foram fornecidas. Os recursos do NLTK já estão baixados.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Instruções do exercício

  • Converta a review fornecida para letras minúsculas.
  • Tokenize o lower_text em palavras.
  • Use list comprehension para remover stop words e pontuação usando as listas stop_words e string.punctuation.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)
Editar e executar o código