ComenzarEmpieza gratis

Representación TF-IDF de los comentarios sobre los productos

Trabajas en el equipo de atención al cliente de una empresa de domótica. Han recopilado opiniones de usuarios sobre una amplia gama de dispositivos inteligentes y quieren identificar qué palabras destacan en cada reseña. Sugieres utilizar la técnica TF-IDF para resaltar los términos más relevantes en las entradas de comentarios. ¡Ayudémosles a empezar!

Se ha precargado una función preprocess() que recibe un texto y devuelve otro procesado. Esta función aplica minúsculas, tokenización y eliminación de puntuación. Pandas se ha importado como pd, y la clase TfidfVectorizer está lista para su uso.

Este ejercicio forma parte del curso

Procesamiento del lenguaje natural (NLP) en Python

Ver curso

Instrucciones del ejercicio

  • Inicializa un TF-IDF vectorizer.
  • Transforma las reseñas limpias en un tfidf_matrix .
  • Crea un DataFrame df para tfidf_matrix, con las palabras del vocabulario como columnas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Editar y ejecutar código