Amplía tu vocabulario a partir de las opiniones de los clientes
Formas parte del equipo de análisis de productos de TechZone, una empresa de electrónica de consumo. Has recibido un pequeño lote de opiniones de clientes sobre un nuevo gadget. Para analizar las reseñas, primero deberás preprocesar el texto y crear un vocabulario, una lista de palabras únicas que definen las características utilizadas para representar cada reseña como datos numéricos.
La función « preprocess()
» (Comprender el código) está precargada para ti. Pone el texto en minúsculas, lo tokeniza y elimina la puntuación.
Este ejercicio forma parte del curso
Procesamiento del lenguaje natural (NLP) en Python
Instrucciones del ejercicio
- Preprocesa cada reseña del conjunto de datos utilizando la función «
preprocess()
». - Ajusta el modelo de regresión lineal de regresión (
vectorizer
) a las reseñas preprocesadas. - Imprime el vocabulario resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
reviews = [
"The product is fantastic! It works like a charm.",
"I hated the product. It broke after one use.",
"Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]
vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary
print(vectorizer.____)