MulaiMulai sekarang secara gratis

Mengelompokkan Wikipedia bagian II

Sekarang saatnya menjalankan pipeline dari latihan sebelumnya! Anda diberikan array articles berisi frekuensi kata tf-idf dari beberapa artikel Wikipedia populer, serta daftar titles yang berisi judulnya. Gunakan pipeline Anda untuk mengelompokkan artikel-artikel Wikipedia tersebut.

Solusi untuk latihan sebelumnya telah dimuat untuk Anda, sehingga sebuah Pipeline pipeline yang merangkai TruncatedSVD dengan KMeans sudah tersedia.

Latihan ini adalah bagian dari kursus

Unsupervised Learning in Python

Lihat Kursus

Petunjuk latihan

  • Impor pandas sebagai pd.
  • Sesuaikan (fit) pipeline pada array frekuensi kata articles.
  • Prediksi label klaster.
  • Selaraskan label klaster dengan daftar judul artikel titles dengan membuat DataFrame df yang memiliki kolom labels dan titles. Ini telah dilakukan untuk Anda.
  • Gunakan metode .sort_values() pada df untuk mengurutkan DataFrame berdasarkan kolom 'label', lalu cetak hasilnya.
  • Tekan Kirim dan luangkan waktu sejenak untuk meninjau pengelompokan halaman Wikipedia Anda yang luar biasa!

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Edit dan Jalankan Kode