ComenzarEmpieza gratis

Construir el vocabulario a partir de reseñas de clientes

Formas parte del equipo de analítica de producto en TechZone, una empresa de electrónica de consumo. Has recibido un pequeño lote de reseñas de clientes sobre un nuevo gadget. Para analizarlas, primero vas a preprocesar el texto y construir un vocabulario: una lista de palabras únicas que define las características usadas para representar cada reseña como datos numéricos.

La función preprocess() ya está cargada. Convierte el texto a minúsculas, lo tokeniza y elimina la puntuación.

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

Ver curso

Instrucciones del ejercicio

  • Preprocesa cada reseña del conjunto de datos usando la función preprocess().
  • Ajusta el vectorizer con las reseñas preprocesadas.
  • Imprime el vocabulario resultante.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)
Editar y ejecutar código