Construir el vocabulario a partir de reseñas de clientes
Formas parte del equipo de analítica de producto en TechZone, una empresa de electrónica de consumo. Has recibido un pequeño lote de reseñas de clientes sobre un nuevo gadget. Para analizarlas, primero vas a preprocesar el texto y construir un vocabulario: una lista de palabras únicas que define las características usadas para representar cada reseña como datos numéricos.
La función preprocess() ya está cargada. Convierte el texto a minúsculas, lo tokeniza y elimina la puntuación.
Este ejercicio forma parte del curso
Natural Language Processing (NLP) en Python
Instrucciones del ejercicio
- Preprocesa cada reseña del conjunto de datos usando la función
preprocess(). - Ajusta el
vectorizercon las reseñas preprocesadas. - Imprime el vocabulario resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
reviews = [
"The product is fantastic! It works like a charm.",
"I hated the product. It broke after one use.",
"Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]
vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary
print(vectorizer.____)