Minusculización
Estás analizando las opiniones de los usuarios de un sitio web de viajes. Estas reseñas suelen incluir inconsistencias en el uso de mayúsculas, como « "TRAVEL" » y « "travel" ». Para preparar el texto para el análisis de sentimientos y la extracción de temas, primero debes convertir todas las palabras a minúsculas, luego tokenizarlas y limpiarlas de palabras vacías y puntuación.
Se han proporcionado la función « word_tokenize() » y una lista « stop_words ». Los recursos NLTK ya se han descargado.
Este ejercicio forma parte del curso
Procesamiento del lenguaje natural (NLP) en Python
Instrucciones del ejercicio
- Convierte el texto proporcionado «
review» a minúsculas. - Divide el texto «
lower_text» en palabras. - Utiliza la comprensión de listas para eliminar palabras vacías y signos de puntuación utilizando las listas de
stop_wordsystring.punctuation.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)