Pengelompokan Wikipedia bagian I

Anda melihat di video bahwa TruncatedSVD dapat melakukan PCA pada array jarang dalam format csr_matrix, seperti array frekuensi kata. Gabungkan pengetahuan Anda tentang TruncatedSVD dan k-means untuk mengelompokkan beberapa halaman populer dari Wikipedia. Pada latihan ini, bangun pipelinenya. Pada latihan berikutnya, Anda akan menerapkannya pada array frekuensi kata dari beberapa artikel Wikipedia.

Buat objek Pipeline yang terdiri dari TruncatedSVD diikuti oleh KMeans. (Kali ini, kami sudah menghitung terlebih dahulu matriks frekuensi kata untuk Anda, jadi tidak perlu menggunakan TfidfVectorizer).

Himpunan data Wikipedia yang akan Anda gunakan diperoleh dari sini.

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

Instruksi latihan

Impor:
- TruncatedSVD dari sklearn.decomposition.
- KMeans dari sklearn.cluster.
- make_pipeline dari sklearn.pipeline.
Buat instance TruncatedSVD bernama svd dengan n_components=50.
Buat instance KMeans bernama kmeans dengan n_clusters=6.
Buat pipeline bernama pipeline yang terdiri dari svd dan kmeans.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari cara menemukan kelompok (atau "klaster") yang mendasari dalam sebuah himpunan data. Pada akhir bab ini, Anda akan mengelompokkan perusahaan menggunakan harga pasar sahamnya, dan membedakan berbagai spesies dengan mengelompokkan pengukuran mereka.

Exercise 1: Unsupervised Learning Exercise 2: Ada berapa klaster?Exercise 3: Melakukan klasterisasi titik 2D Exercise 4: Periksa klastering Anda Exercise 5: Mengevaluasi sebuah pengelompokan Exercise 6: Berapa banyak klaster untuk biji-bijian?Exercise 7: Mengevaluasi pengelompokan biji-bijian Exercise 8: Mentransformasi fitur untuk pengelompokan yang lebih baik Exercise 9: Menskalakan data ikan untuk klastering Exercise 10: Mengelompokkan data ikan Exercise 11: Mengelompokkan saham menggunakan KMeans Exercise 12: Saham mana yang bergerak bersama?

Pada bab ini, Anda akan mempelajari dua teknik unsupervised learning untuk visualisasi data: hierarchical clustering dan t-SNE. Hierarchical clustering menggabungkan sampel data menjadi klaster yang makin besar, menghasilkan visualisasi pohon dari hierarki klaster yang terbentuk. t-SNE memetakan sampel data ke ruang 2D sehingga kedekatan antar sampel dapat divisualisasikan.

Exercise 1: Memvisualisasikan hierarki Exercise 2: Berapa banyak penggabungan?Exercise 3: Hierarchical clustering pada data biji-bijian Exercise 4: Hierarki saham Exercise 5: Label klaster dalam hierarchical clustering Exercise 6: Klaster mana yang paling dekat?Exercise 7: Linkage berbeda, hierarchical clustering berbeda!Exercise 8: Pengelompokan menengah Exercise 9: Mengekstrak label klaster Exercise 10: t-SNE untuk peta 2 dimensi Exercise 11: Visualisasi t-SNE pada himpunan data biji-bijian Exercise 12: Peta t-SNE pasar saham

Reduksi dimensi merangkum sebuah himpunan data menggunakan pola yang sering muncul. Pada bab ini, Anda akan mempelajari teknik reduksi dimensi paling mendasar, "Principal Component Analysis" ("PCA"). PCA sering digunakan sebelum supervised learning untuk meningkatkan kinerja dan generalisasi model. PCA juga bermanfaat untuk unsupervised learning. Misalnya, Anda akan menggunakan varian PCA yang memungkinkan Anda mengelompokkan artikel Wikipedia berdasarkan isinya!

Exercise 1: Memvisualisasikan transformasi PCA Exercise 2: Data berkorelasi di alam Exercise 3: Menghilangkan korelasi pengukuran biji dengan PCA Exercise 4: Komponen utama Exercise 5: Dimensi intrinsik Exercise 6: Komponen utama pertama Exercise 7: Varians dari fitur PCA Exercise 8: Dimensi intrinsik dari data ikan Exercise 9: Reduksi dimensi dengan PCA Exercise 10: Reduksi dimensi pada pengukuran ikan Exercise 11: Array frekuensi kata tf-idf Exercise 12: Pengelompokan Wikipedia bagian I

Latihan Saat Ini

Exercise 13: Mengelompokkan Wikipedia bagian II

Pada bab ini, Anda akan mempelajari teknik reduksi dimensi bernama "Non-negative matrix factorization" ("NMF") yang mengekspresikan sampel sebagai kombinasi bagian-bagian yang dapat diinterpretasikan. Misalnya, teknik ini mengekspresikan dokumen sebagai kombinasi topik, dan gambar sebagai pola visual yang sering muncul. Anda juga akan belajar menggunakan NMF untuk membangun sistem rekomendasi yang dapat menemukan artikel serupa untuk dibaca, atau artis musik yang sesuai dengan riwayat mendengarkan Anda!

Exercise 1: Non-negative matrix factorization (NMF)Exercise 2: Data non-negatif Exercise 3: Penerapan NMF pada artikel Wikipedia Exercise 4: Fitur NMF dari artikel Wikipedia Exercise 5: NMF merekonstruksi sampel Exercise 6: NMF mempelajari komponen yang dapat ditafsirkan Exercise 7: NMF mempelajari topik dokumen Exercise 8: Jelajahi himpunan data digit LED Exercise 9: NMF mempelajari bagian-bagian dari citra Exercise 10: PCA tidak mempelajari bagian-bagian Exercise 11: Membangun sistem rekomendasi menggunakan NMF Exercise 12: Artikel mana yang mirip dengan 'Cristiano Ronaldo'?Exercise 13: Rekomendasikan artis musik bagian I Exercise 14: Rekomendasikan artis musik bagian II Exercise 15: Penutup