Term teratas dalam cluster film
Sekarang setelah Anda membuat matriks jarang, buat pusat cluster dan cetak tiga term teratas di setiap cluster. Gunakan metode .todense() untuk mengonversi matriks jarang, tfidf_matrix, menjadi matriks biasa agar fungsi kmeans() dapat memprosesnya. Lalu, gunakan metode .get_feature_names() untuk mendapatkan daftar term dalam objek tfidf_vectorizer. Fungsi zip() di Python menggabungkan dua daftar.
Objek tfidf_vectorizer dan matriks jarang, tfidf_matrix, dari latihan sebelumnya telah dipertahankan di latihan ini. kmeans telah diimpor dari SciPy.
Dengan jumlah titik data yang lebih besar, cluster yang terbentuk akan lebih terdefinisi dengan jelas. Namun, ini memerlukan daya komputasi, sehingga sulit dilakukan dalam latihan di sini.
Latihan ini adalah bagian dari kursus
Analisis Klaster di Python
Petunjuk latihan
- Hasilkan pusat cluster melalui fungsi
kmeans(). - Hasilkan daftar term dari objek
tfidf_vectorizer. - Cetak 3 term teratas dari setiap cluster.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
num_clusters = 2
# Generate cluster centers through the kmeans function
cluster_centers, distortion = ____
# Generate terms from the tfidf_vectorizer object
terms = tfidf_vectorizer.____()
for i in range(num_clusters):
# Sort the terms and print top 3 terms
center_terms = dict(zip(____, ____))
sorted_terms = sorted(____, key=center_terms.get, reverse=True)
print(____)