Conversión a minúsculas
Estás analizando reseñas de usuarios para una web de viajes. Estas reseñas suelen tener mayúsculas inconsistentes como "TRAVEL" y "travel". Para preparar el texto para análisis de sentimiento y extracción de temas, primero convertirás todas las palabras a minúsculas, luego las tokenizarás y las limpiarás de stop words y puntuación.
Se te proporcionan la función word_tokenize() y una lista stop_words. Los recursos de NLTK ya están descargados.
Este ejercicio forma parte del curso
Natural Language Processing (NLP) en Python
Instrucciones del ejercicio
- Convierte la
reviewproporcionada a minúsculas. - Tokeniza
lower_texten palabras. - Usa una list comprehension para eliminar stop words y signos de puntuación usando las listas
stop_wordsystring.punctuation.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)