1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Unsupervised Learning bằng Python

Connected

Bài tập

Phân cụm Wikipedia phần I

Bạn đã thấy trong video rằng TruncatedSVD có thể thực hiện PCA trên các mảng thưa ở định dạng csr_matrix, như các mảng tần suất từ. Hãy kết hợp kiến thức về TruncatedSVD và k-means để phân cụm một số trang phổ biến trên Wikipedia. Trong bài này, hãy xây dựng pipeline. Ở bài tiếp theo, bạn sẽ áp dụng nó lên mảng tần suất từ của một số bài viết Wikipedia.

Tạo một đối tượng Pipeline gồm TruncatedSVD tiếp theo là KMeans. (Lần này, chúng tôi đã tính sẵn ma trận tần suất từ cho bạn, nên không cần dùng TfidfVectorizer).

Bộ dữ liệu Wikipedia bạn sẽ làm việc được lấy từ đây.

Hướng dẫn

100 XP
  • Import:
    • TruncatedSVD từ sklearn.decomposition.
    • KMeans từ sklearn.cluster.
    • make_pipeline từ sklearn.pipeline.
  • Tạo một instance TruncatedSVD tên svd với n_components=50.
  • Tạo một instance KMeans tên kmeans với n_clusters=6.
  • Tạo một pipeline tên pipeline gồm svd và kmeans.