Mengelompokkan Wikipedia bagian II
Sekarang saatnya menjalankan pipeline dari latihan sebelumnya! Anda diberikan array articles berisi frekuensi kata tf-idf dari beberapa artikel Wikipedia populer, serta daftar titles yang berisi judulnya. Gunakan pipeline Anda untuk mengelompokkan artikel-artikel Wikipedia tersebut.
Solusi untuk latihan sebelumnya telah dimuat untuk Anda, sehingga sebuah Pipeline pipeline yang merangkai TruncatedSVD dengan KMeans sudah tersedia.
Latihan ini merupakan bagian dari kursus
Unsupervised Learning in Python
Instruksi latihan
- Impor
pandassebagaipd. - Sesuaikan (fit) pipeline pada array frekuensi kata
articles. - Prediksi label klaster.
- Selaraskan label klaster dengan daftar judul artikel
titlesdengan membuat DataFramedfyang memiliki kolomlabelsdantitles. Ini telah dilakukan untuk Anda. - Gunakan metode
.sort_values()padadfuntuk mengurutkan DataFrame berdasarkan kolom'label', lalu cetak hasilnya. - Tekan Kirim dan luangkan waktu sejenak untuk meninjau pengelompokan halaman Wikipedia Anda yang luar biasa!
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)