Matrice di similarità coseno di un corpus
In questo esercizio ti viene fornito un corpus, ovvero un elenco che contiene cinque frasi. Il corpus è stampato nella console. Devi calcolare la matrice di similarità coseno, che contiene lo score di similarità coseno per ogni coppia di frasi (vettorizzate con tf-idf).
Ricorda: il valore corrispondente alla riga i-esima e alla colonna j-esima di una matrice di similarità indica lo score di similarità tra i vettori i-esimo e j-esimo.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Inizializza un'istanza di
TfidfVectorizer. Chiamalatfidf_vectorizer. - Usando
fit_transform(), genera i vettori tf-idf percorpus. Chiamalitfidf_matrix. - Usa
cosine_similarity()e passatfidf_matrixper calcolare la matrice di similarità cosenocosine_sim.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)