Conversão para minúsculas
Você tá analisando as avaliações dos usuários de um site de viagens. Essas avaliações geralmente têm letras maiúsculas de forma meio confusa, tipo “ "TRAVEL" ” e “ "travel" ”. Para preparar o texto para a análise de sentimentos e extração de tópicos, primeiro você vai converter todas as palavras para minúsculas, depois tokenizá-las e limpar as palavras irrelevantes e a pontuação.
A função “ word_tokenize() ”, uma lista “ stop_words ”, foi fornecida. Os recursos do NLTK já estão baixados.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Converta o texto fornecido “
review” em minúsculas. - Transforme o texto “
lower_text” em palavras. - Use compreensão de lista para tirar palavras irrelevantes e pontuação usando as listas de
stop_wordsestring.punctuation.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)