Mengelompokkan Wikipedia bagian II

Sekarang saatnya menjalankan pipeline dari latihan sebelumnya! Anda diberikan array articles berisi frekuensi kata tf-idf dari beberapa artikel Wikipedia populer, serta daftar titles yang berisi judulnya. Gunakan pipeline Anda untuk mengelompokkan artikel-artikel Wikipedia tersebut.

Solusi untuk latihan sebelumnya telah dimuat untuk Anda, sehingga sebuah Pipeline pipeline yang merangkai TruncatedSVD dengan KMeans sudah tersedia.

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

Instruksi latihan

Impor pandas sebagai pd.
Sesuaikan (fit) pipeline pada array frekuensi kata articles.
Prediksi label klaster.
Selaraskan label klaster dengan daftar judul artikel titles dengan membuat DataFrame df yang memiliki kolom labels dan titles. Ini telah dilakukan untuk Anda.
Gunakan metode .sort_values() pada df untuk mengurutkan DataFrame berdasarkan kolom 'label', lalu cetak hasilnya.
Tekan Kirim dan luangkan waktu sejenak untuk meninjau pengelompokan halaman Wikipedia Anda yang luar biasa!

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari cara menemukan kelompok (atau "klaster") yang mendasari dalam sebuah himpunan data. Pada akhir bab ini, Anda akan mengelompokkan perusahaan menggunakan harga pasar sahamnya, dan membedakan berbagai spesies dengan mengelompokkan pengukuran mereka.

Exercise 1: Unsupervised Learning Exercise 2: Ada berapa klaster?Exercise 3: Melakukan klasterisasi titik 2D Exercise 4: Periksa klastering Anda Exercise 5: Mengevaluasi sebuah pengelompokan Exercise 6: Berapa banyak klaster untuk biji-bijian?Exercise 7: Mengevaluasi pengelompokan biji-bijian Exercise 8: Mentransformasi fitur untuk pengelompokan yang lebih baik Exercise 9: Menskalakan data ikan untuk klastering Exercise 10: Mengelompokkan data ikan Exercise 11: Mengelompokkan saham menggunakan KMeans Exercise 12: Saham mana yang bergerak bersama?

Pada bab ini, Anda akan mempelajari dua teknik unsupervised learning untuk visualisasi data: hierarchical clustering dan t-SNE. Hierarchical clustering menggabungkan sampel data menjadi klaster yang makin besar, menghasilkan visualisasi pohon dari hierarki klaster yang terbentuk. t-SNE memetakan sampel data ke ruang 2D sehingga kedekatan antar sampel dapat divisualisasikan.

Exercise 1: Memvisualisasikan hierarki Exercise 2: Berapa banyak penggabungan?Exercise 3: Hierarchical clustering pada data biji-bijian Exercise 4: Hierarki saham Exercise 5: Label klaster dalam hierarchical clustering Exercise 6: Klaster mana yang paling dekat?Exercise 7: Linkage berbeda, hierarchical clustering berbeda!Exercise 8: Pengelompokan menengah Exercise 9: Mengekstrak label klaster Exercise 10: t-SNE untuk peta 2 dimensi Exercise 11: Visualisasi t-SNE pada himpunan data biji-bijian Exercise 12: Peta t-SNE pasar saham

Reduksi dimensi merangkum sebuah himpunan data menggunakan pola yang sering muncul. Pada bab ini, Anda akan mempelajari teknik reduksi dimensi paling mendasar, "Principal Component Analysis" ("PCA"). PCA sering digunakan sebelum supervised learning untuk meningkatkan kinerja dan generalisasi model. PCA juga bermanfaat untuk unsupervised learning. Misalnya, Anda akan menggunakan varian PCA yang memungkinkan Anda mengelompokkan artikel Wikipedia berdasarkan isinya!

Exercise 1: Memvisualisasikan transformasi PCA Exercise 2: Data berkorelasi di alam Exercise 3: Menghilangkan korelasi pengukuran biji dengan PCA Exercise 4: Komponen utama Exercise 5: Dimensi intrinsik Exercise 6: Komponen utama pertama Exercise 7: Varians dari fitur PCA Exercise 8: Dimensi intrinsik dari data ikan Exercise 9: Reduksi dimensi dengan PCA Exercise 10: Reduksi dimensi pada pengukuran ikan Exercise 11: Array frekuensi kata tf-idf Exercise 12: Pengelompokan Wikipedia bagian I Exercise 13: Mengelompokkan Wikipedia bagian II

Latihan Saat Ini

Pada bab ini, Anda akan mempelajari teknik reduksi dimensi bernama "Non-negative matrix factorization" ("NMF") yang mengekspresikan sampel sebagai kombinasi bagian-bagian yang dapat diinterpretasikan. Misalnya, teknik ini mengekspresikan dokumen sebagai kombinasi topik, dan gambar sebagai pola visual yang sering muncul. Anda juga akan belajar menggunakan NMF untuk membangun sistem rekomendasi yang dapat menemukan artikel serupa untuk dibaca, atau artis musik yang sesuai dengan riwayat mendengarkan Anda!

Exercise 1: Non-negative matrix factorization (NMF)Exercise 2: Data non-negatif Exercise 3: Penerapan NMF pada artikel Wikipedia Exercise 4: Fitur NMF dari artikel Wikipedia Exercise 5: NMF merekonstruksi sampel Exercise 6: NMF mempelajari komponen yang dapat ditafsirkan Exercise 7: NMF mempelajari topik dokumen Exercise 8: Jelajahi himpunan data digit LED Exercise 9: NMF mempelajari bagian-bagian dari citra Exercise 10: PCA tidak mempelajari bagian-bagian Exercise 11: Membangun sistem rekomendasi menggunakan NMF Exercise 12: Artikel mana yang mirip dengan 'Cristiano Ronaldo'?Exercise 13: Rekomendasikan artis musik bagian I Exercise 14: Rekomendasikan artis musik bagian II Exercise 15: Penutup