Phân cụm Wikipedia - phần II

Đã đến lúc bạn đưa pipeline từ bài trước vào sử dụng! Bạn có mảng articles chứa tf-idf tần suất từ của một số bài viết Wikipedia phổ biến, và danh sách titles gồm tiêu đề của chúng. Hãy dùng pipeline để phân cụm các bài viết Wikipedia.

Lời giải của bài trước đã được nạp sẵn cho bạn, nên một Pipeline pipeline kết hợp TruncatedSVD với KMeans đã sẵn sàng.

Import pandas với bí danh pd.
Fit pipeline lên mảng tần suất từ articles.
Dự đoán các nhãn cụm.
Căn thẳng các nhãn cụm với danh sách tiêu đề bài viết titles bằng cách tạo DataFrame df với các cột labels và titles. Phần này đã được làm sẵn cho bạn.
Dùng phương thức .sort_values() của df để sắp xếp DataFrame theo cột 'label', rồi in kết quả.
Nhấn Gửi và dành chút thời gian xem xét kết quả phân cụm Wikipedia tuyệt vời của bạn!

Bài tập

Phân cụm Wikipedia - phần II

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập