Matriks kemiripan kosinus dari sebuah korpus
Pada latihan ini, Anda diberikan sebuah corpus, yaitu daftar yang berisi lima kalimat. corpus telah dicetak di konsol. Anda harus menghitung matriks kemiripan kosinus yang memuat skor kemiripan kosinus berpasangan untuk setiap pasangan kalimat (vektorisasi menggunakan tf-idf).
Ingat, nilai pada baris ke-i dan kolom ke-j dari sebuah matriks kemiripan menyatakan skor kemiripan untuk vektor ke-i dan ke-j.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Inisialisasi instance
TfidfVectorizer. Beri namatfidf_vectorizer. - Dengan
fit_transform(), hasilkan vektor tf-idf untukcorpus. Beri namatfidf_matrix. - Gunakan
cosine_similarity()dan berikantfidf_matrixuntuk menghitung matriks kemiripan kosinuscosine_sim.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize an instance of tf-idf Vectorizer
tfidf_vectorizer = ____
# Generate the tf-idf vectors for the corpus
tfidf_matrix = tfidf_vectorizer.fit_transform(____)
# Compute and print the cosine similarity matrix
cosine_sim = ____(____, tfidf_matrix)
print(cosine_sim)