MulaiMulai sekarang secara gratis

Pengelompokan Wikipedia bagian I

Anda melihat di video bahwa TruncatedSVD dapat melakukan PCA pada array jarang dalam format csr_matrix, seperti array frekuensi kata. Gabungkan pengetahuan Anda tentang TruncatedSVD dan k-means untuk mengelompokkan beberapa halaman populer dari Wikipedia. Pada latihan ini, bangun pipelinenya. Pada latihan berikutnya, Anda akan menerapkannya pada array frekuensi kata dari beberapa artikel Wikipedia.

Buat objek Pipeline yang terdiri dari TruncatedSVD diikuti oleh KMeans. (Kali ini, kami sudah menghitung terlebih dahulu matriks frekuensi kata untuk Anda, jadi tidak perlu menggunakan TfidfVectorizer).

Himpunan data Wikipedia yang akan Anda gunakan diperoleh dari sini.

Latihan ini adalah bagian dari kursus

Unsupervised Learning in Python

Lihat Kursus

Petunjuk latihan

  • Impor:
    • TruncatedSVD dari sklearn.decomposition.
    • KMeans dari sklearn.cluster.
    • make_pipeline dari sklearn.pipeline.
  • Buat instance TruncatedSVD bernama svd dengan n_components=50.
  • Buat instance KMeans bernama kmeans dengan n_clusters=6.
  • Buat pipeline bernama pipeline yang terdiri dari svd dan kmeans.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Edit dan Jalankan Kode