Representación TF-IDF de los comentarios sobre los productos
Trabajas en el equipo de atención al cliente de una empresa de domótica. Han recopilado opiniones de usuarios sobre una amplia gama de dispositivos inteligentes y quieren identificar qué palabras destacan en cada reseña. Sugieres utilizar la técnica TF-IDF para resaltar los términos más relevantes en las entradas de comentarios. ¡Ayudémosles a empezar!
Se ha precargado una función preprocess()
que recibe un texto y devuelve otro procesado. Esta función aplica minúsculas, tokenización y eliminación de puntuación. Pandas se ha importado como pd,
y la clase TfidfVectorizer
está lista para su uso.
Este ejercicio forma parte del curso
Procesamiento del lenguaje natural (NLP) en Python
Instrucciones del ejercicio
- Inicializa un TF-IDF
vectorizer
. - Transforma las reseñas limpias en un
tfidf_matrix
. - Crea un DataFrame
df
paratfidf_matrix
, con las palabras del vocabulario como columnas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())