Huấn luyện K-means

Giờ RDD đã sẵn sàng để huấn luyện, ở phần 2 này, bạn sẽ thử các giá trị k từ 13 đến 16 (để tiết kiệm thời gian tính toán) và dùng phương pháp elbow để chọn k phù hợp. Ý tưởng của phương pháp elbow là chạy phân cụm K-means trên tập dữ liệu với nhiều giá trị k khác nhau, tính Within Set Sum of Squared Error (WSSSE), rồi chọn k tốt nhất dựa trên điểm mà WSSSE giảm đột ngột, tức là vị trí “khuỷu tay”. Tiếp theo, bạn sẽ huấn luyện lại mô hình với k tốt nhất và cuối cùng lấy các centroid (tâm cụm).

Lưu ý: bạn đã có sẵn SparkContext sc và RDD rdd_split_int trong không gian làm việc.

Huấn luyện mô hình KMeans với số cụm từ 13 đến 16 và in WSSSE cho mỗi số cụm.
Huấn luyện lại mô hình KMeans với k tốt nhất.
Lấy các tâm cụm (centroid) của mô hình KMeans được huấn luyện với k tốt nhất.

Bài tập

Huấn luyện K-means

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập