Minusculización
Estás analizando las opiniones de los usuarios de un sitio web de viajes. Estas reseñas suelen incluir inconsistencias en el uso de mayúsculas, como « "TRAVEL"
» y « "travel"
». Para preparar el texto para el análisis de sentimientos y la extracción de temas, primero debes convertir todas las palabras a minúsculas, luego tokenizarlas y limpiarlas de palabras vacías y puntuación.
Se han proporcionado la función « word_tokenize()
» y una lista « stop_words
». Los recursos NLTK ya se han descargado.
Este ejercicio forma parte del curso
Procesamiento del lenguaje natural (NLP) en Python
Instrucciones del ejercicio
- Convierte el texto proporcionado «
review
» a minúsculas. - Divide el texto «
lower_text
» en palabras. - Utiliza la comprensión de listas para eliminar palabras vacías y signos de puntuación utilizando las listas de
stop_words
ystring.punctuation
.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)