Matriz de similitud del coseno de un corpus
En este ejercicio, se te proporciona un corpus, que es una lista con cinco oraciones. El corpus se muestra en la consola. Tienes que calcular la matriz de similitud del coseno, que contiene la puntuación de similitud del coseno por pares para cada par de oraciones (vectorizadas con tf-idf).
Recuerda: el valor correspondiente a la fila i y la columna j de una matriz de similitud indica la puntuación de similitud para los vectores i y j.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Instrucciones del ejercicio
- Inicializa una instancia de
TfidfVectorizer. Llámalatfidf_vectorizer. - Usando
fit_transform(), genera los vectores tf-idf paracorpus. Llámalostfidf_matrix. - Usa
cosine_similarity()y pasatfidf_matrixpara calcular la matriz de similitud del cosenocosine_sim.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)