ComenzarEmpieza gratis

Representación TF-IDF de opiniones de producto

Estás colaborando con un equipo de atención al cliente en una empresa de domótica. Han recopilado opiniones de usuarios sobre varios dispositivos inteligentes y quieren identificar qué palabras destacan en cada reseña. Les propones usar la técnica TF-IDF para resaltar los términos más relevantes en cada entrada de feedback. ¡Vamos a ayudarles a empezar!

Ya tienes precargada una función preprocess() que recibe un texto y devuelve una versión procesada. Esta función aplica conversión a minúsculas, tokenización y eliminación de puntuación. Pandas se ha importado como pd, y la clase TfidfVectorizer está lista para usar.

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

Ver curso

Instrucciones del ejercicio

  • Inicializa un vectorizer TF-IDF.
  • Transforma las reseñas limpias en una tfidf_matrix.
  • Crea un DataFrame df para la tfidf_matrix, usando las palabras del vocabulario como columnas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Editar y ejecutar código