Matriz de similitud del coseno de un corpus

En este ejercicio, se te proporciona un corpus, que es una lista con cinco oraciones. El corpus se muestra en la consola. Tienes que calcular la matriz de similitud del coseno, que contiene la puntuación de similitud del coseno por pares para cada par de oraciones (vectorizadas con tf-idf).

Recuerda: el valor correspondiente a la fila i y la columna j de una matriz de similitud indica la puntuación de similitud para los vectores i y j.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

Instrucciones del ejercicio

Inicializa una instancia de TfidfVectorizer. Llámala tfidf_vectorizer.
Usando fit_transform(), genera los vectores tf-idf para corpus. Llámalos tfidf_matrix.
Usa cosine_similarity() y pasa tfidf_matrix para calcular la matriz de similitud del coseno cosine_sim.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____

# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)

# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)

Editar y ejecutar código