Matrice di similarità coseno di un corpus

In questo esercizio ti viene fornito un corpus, ovvero un elenco che contiene cinque frasi. Il corpus è stampato nella console. Devi calcolare la matrice di similarità coseno, che contiene lo score di similarità coseno per ogni coppia di frasi (vettorizzate con tf-idf).

Ricorda: il valore corrispondente alla riga i-esima e alla colonna j-esima di una matrice di similarità indica lo score di similarità tra i vettori i-esimo e j-esimo.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza corso

Istruzioni dell'esercizio

Inizializza un'istanza di TfidfVectorizer. Chiamala tfidf_vectorizer.
Usando fit_transform(), genera i vettori tf-idf per corpus. Chiamali tfidf_matrix.
Usa cosine_similarity() e passa tfidf_matrix per calcolare la matrice di similarità coseno cosine_sim.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____

# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)

# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)

Modifica ed esegui il codice