Mengelompokkan Wikipedia bagian II
Sekarang saatnya menjalankan pipeline dari latihan sebelumnya! Anda diberikan array articles berisi frekuensi kata tf-idf dari beberapa artikel Wikipedia populer, serta daftar titles yang berisi judulnya. Gunakan pipeline Anda untuk mengelompokkan artikel-artikel Wikipedia tersebut.
Solusi untuk latihan sebelumnya telah dimuat untuk Anda, sehingga sebuah Pipeline pipeline yang merangkai TruncatedSVD dengan KMeans sudah tersedia.
Latihan ini adalah bagian dari kursus
Unsupervised Learning in Python
Petunjuk latihan
- Impor
pandassebagaipd. - Sesuaikan (fit) pipeline pada array frekuensi kata
articles. - Prediksi label klaster.
- Selaraskan label klaster dengan daftar judul artikel
titlesdengan membuat DataFramedfyang memiliki kolomlabelsdantitles. Ini telah dilakukan untuk Anda. - Gunakan metode
.sort_values()padadfuntuk mengurutkan DataFrame berdasarkan kolom'label', lalu cetak hasilnya. - Tekan Kirim dan luangkan waktu sejenak untuk meninjau pengelompokan halaman Wikipedia Anda yang luar biasa!
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)