Bir derlemenin kosinüs benzerliği matrisi
Bu egzersizde, beş cümle içeren bir liste olan bir corpus verildi. corpus konsolda yazdırılmış durumda. Yapman gereken, tf-idf ile vektörleştirilmiş her cümle çiftinin çiftsel kosinüs benzerliği puanını içeren kosinüs benzerliği matrisini hesaplamak.
Unutma, bir benzerlik matrisinde i. satır ve j. sütundaki değer, i. ve j. vektörlerin benzerlik puanını gösterir.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
TfidfVectorizersınıfından bir örnek başlat. Adıtfidf_vectorizerolsun.fit_transform()kullanarakcorpusiçin tf-idf vektörlerini üret. Adıtfidf_matrixolsun.cosine_similarity()kullan ve kosinüs benzerliği matrisicosine_simi hesaplamak içintfidf_matrix'i geçir.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)