ComenzarEmpieza gratis

Minusculización

Estás analizando las opiniones de los usuarios de un sitio web de viajes. Estas reseñas suelen incluir inconsistencias en el uso de mayúsculas, como « "TRAVEL" » y « "travel" ». Para preparar el texto para el análisis de sentimientos y la extracción de temas, primero debes convertir todas las palabras a minúsculas, luego tokenizarlas y limpiarlas de palabras vacías y puntuación.

Se han proporcionado la función « word_tokenize() » y una lista « stop_words ». Los recursos NLTK ya se han descargado.

Este ejercicio forma parte del curso

Procesamiento del lenguaje natural (NLP) en Python

Ver curso

Instrucciones del ejercicio

  • Convierte el texto proporcionado « review » a minúsculas.
  • Divide el texto « lower_text » en palabras.
  • Utiliza la comprensión de listas para eliminar palabras vacías y signos de puntuación utilizando las listas de stop_words y string.punctuation.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)
Editar y ejecutar código