MulaiMulai sekarang secara gratis

Term teratas dalam cluster film

Sekarang setelah Anda membuat matriks jarang, buat pusat cluster dan cetak tiga term teratas di setiap cluster. Gunakan metode .todense() untuk mengonversi matriks jarang, tfidf_matrix, menjadi matriks biasa agar fungsi kmeans() dapat memprosesnya. Lalu, gunakan metode .get_feature_names() untuk mendapatkan daftar term dalam objek tfidf_vectorizer. Fungsi zip() di Python menggabungkan dua daftar.

Objek tfidf_vectorizer dan matriks jarang, tfidf_matrix, dari latihan sebelumnya telah dipertahankan di latihan ini. kmeans telah diimpor dari SciPy.

Dengan jumlah titik data yang lebih besar, cluster yang terbentuk akan lebih terdefinisi dengan jelas. Namun, ini memerlukan daya komputasi, sehingga sulit dilakukan dalam latihan di sini.

Latihan ini adalah bagian dari kursus

Analisis Klaster di Python

Lihat Kursus

Petunjuk latihan

  • Hasilkan pusat cluster melalui fungsi kmeans().
  • Hasilkan daftar term dari objek tfidf_vectorizer.
  • Cetak 3 term teratas dari setiap cluster.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

num_clusters = 2

# Generate cluster centers through the kmeans function
cluster_centers, distortion = ____

# Generate terms from the tfidf_vectorizer object
terms = tfidf_vectorizer.____()

for i in range(num_clusters):
    # Sort the terms and print top 3 terms
    center_terms = dict(zip(____, ____))
    sorted_terms = sorted(____, key=center_terms.get, reverse=True)
    print(____)
Edit dan Jalankan Kode