Pengelompokan Wikipedia bagian I
Anda melihat di video bahwa TruncatedSVD dapat melakukan PCA pada array jarang dalam format csr_matrix, seperti array frekuensi kata. Gabungkan pengetahuan Anda tentang TruncatedSVD dan k-means untuk mengelompokkan beberapa halaman populer dari Wikipedia. Pada latihan ini, bangun pipelinenya. Pada latihan berikutnya, Anda akan menerapkannya pada array frekuensi kata dari beberapa artikel Wikipedia.
Buat objek Pipeline yang terdiri dari TruncatedSVD diikuti oleh KMeans. (Kali ini, kami sudah menghitung terlebih dahulu matriks frekuensi kata untuk Anda, jadi tidak perlu menggunakan TfidfVectorizer).
Himpunan data Wikipedia yang akan Anda gunakan diperoleh dari sini.
Latihan ini adalah bagian dari kursus
Unsupervised Learning in Python
Petunjuk latihan
- Impor:
TruncatedSVDdarisklearn.decomposition.KMeansdarisklearn.cluster.make_pipelinedarisklearn.pipeline.
- Buat instance
TruncatedSVDbernamasvddengann_components=50. - Buat instance
KMeansbernamakmeansdengann_clusters=6. - Buat pipeline bernama
pipelineyang terdiri darisvddankmeans.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____