Representación TF-IDF de opiniones de producto
Estás colaborando con un equipo de atención al cliente en una empresa de domótica. Han recopilado opiniones de usuarios sobre varios dispositivos inteligentes y quieren identificar qué palabras destacan en cada reseña. Les propones usar la técnica TF-IDF para resaltar los términos más relevantes en cada entrada de feedback. ¡Vamos a ayudarles a empezar!
Ya tienes precargada una función preprocess() que recibe un texto y devuelve una versión procesada. Esta función aplica conversión a minúsculas, tokenización y eliminación de puntuación. Pandas se ha importado como pd, y la clase TfidfVectorizer está lista para usar.
Este ejercicio forma parte del curso
Natural Language Processing (NLP) en Python
Instrucciones del ejercicio
- Inicializa un
vectorizerTF-IDF. - Transforma las reseñas limpias en una
tfidf_matrix. - Crea un DataFrame
dfpara latfidf_matrix, usando las palabras del vocabulario como columnas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())