BaşlayınÜcretsiz Başlayın

Bir derlemenin kosinüs benzerliği matrisi

Bu egzersizde, beş cümle içeren bir liste olan bir corpus verildi. corpus konsolda yazdırılmış durumda. Yapman gereken, tf-idf ile vektörleştirilmiş her cümle çiftinin çiftsel kosinüs benzerliği puanını içeren kosinüs benzerliği matrisini hesaplamak.

Unutma, bir benzerlik matrisinde i. satır ve j. sütundaki değer, i. ve j. vektörlerin benzerlik puanını gösterir.

Bu egzersiz

Python ile NLP için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • TfidfVectorizer sınıfından bir örnek başlat. Adı tfidf_vectorizer olsun.
  • fit_transform() kullanarak corpus için tf-idf vektörlerini üret. Adı tfidf_matrix olsun.
  • cosine_similarity() kullan ve kosinüs benzerliği matrisi cosine_simi hesaplamak için tfidf_matrix'i geçir.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____

# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)

# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)
Kodu Düzenle ve Çalıştır