Matriks kemiripan kosinus dari sebuah korpus
Pada latihan ini, Anda diberikan sebuah corpus, yaitu daftar yang berisi lima kalimat. corpus telah dicetak di konsol. Anda harus menghitung matriks kemiripan kosinus yang memuat skor kemiripan kosinus berpasangan untuk setiap pasangan kalimat (vektorisasi menggunakan tf-idf).
Ingat, nilai pada baris ke-i dan kolom ke-j dari sebuah matriks kemiripan menyatakan skor kemiripan untuk vektor ke-i dan ke-j.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Instruksi latihan
- Inisialisasi instance
TfidfVectorizer. Beri namatfidf_vectorizer. - Dengan
fit_transform(), hasilkan vektor tf-idf untukcorpus. Beri namatfidf_matrix. - Gunakan
cosine_similarity()dan berikantfidf_matrixuntuk menghitung matriks kemiripan kosinuscosine_sim.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)