Bir derlemenin kosinüs benzerliği matrisi
Bu egzersizde, beş cümle içeren bir liste olan bir corpus verildi. corpus konsolda yazdırılmış durumda. Yapman gereken, tf-idf ile vektörleştirilmiş her cümle çiftinin çiftsel kosinüs benzerliği puanını içeren kosinüs benzerliği matrisini hesaplamak.
Unutma, bir benzerlik matrisinde i. satır ve j. sütundaki değer, i. ve j. vektörlerin benzerlik puanını gösterir.
Bu egzersiz, kursun bir parçasıdır
Python ile NLP için Özellik Mühendisliği
Egzersiz talimatları
TfidfVectorizersınıfından bir örnek başlat. Adıtfidf_vectorizerolsun.fit_transform()kullanarakcorpusiçin tf-idf vektörlerini üret. Adıtfidf_matrixolsun.cosine_similarity()kullan ve kosinüs benzerliği matrisicosine_simi hesaplamak içintfidf_matrix'i geçir.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)