Letras minúsculas (lowercasing)
Você está analisando avaliações de usuários para um site de viagens. Essas avaliações frequentemente têm capitalização inconsistente, como "TRAVEL" e "travel". Para preparar o texto para análise de sentimento e extração de tópicos, você primeiro vai converter todas as palavras para letras minúsculas, depois tokenizá-las e limpar stop words e pontuação.
A função word_tokenize() e uma lista stop_words foram fornecidas. Os recursos do NLTK já estão baixados.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Converta a
reviewfornecida para letras minúsculas. - Tokenize o
lower_textem palavras. - Use list comprehension para remover stop words e pontuação usando as listas
stop_wordsestring.punctuation.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)