Mulai sekarangMulai gratis

Matriks kemiripan kosinus dari sebuah korpus

Pada latihan ini, Anda diberikan sebuah corpus, yaitu daftar yang berisi lima kalimat. corpus telah dicetak di konsol. Anda harus menghitung matriks kemiripan kosinus yang memuat skor kemiripan kosinus berpasangan untuk setiap pasangan kalimat (vektorisasi menggunakan tf-idf).

Ingat, nilai pada baris ke-i dan kolom ke-j dari sebuah matriks kemiripan menyatakan skor kemiripan untuk vektor ke-i dan ke-j.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Instruksi latihan

  • Inisialisasi instance TfidfVectorizer. Beri nama tfidf_vectorizer.
  • Dengan fit_transform(), hasilkan vektor tf-idf untuk corpus. Beri nama tfidf_matrix.
  • Gunakan cosine_similarity() dan berikan tfidf_matrix untuk menghitung matriks kemiripan kosinus cosine_sim.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____

# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)

# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)
Edit dan Jalankan Kode