1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning cho Marketing với Python

Connected

Bài tập

Xác định số cụm tối ưu

Tại đây, bạn sẽ dùng phương pháp tiêu chí khuỷu tay (elbow) để xác định số cụm tối ưu, nơi mức giảm của tổng bình phương sai số trở nên không đáng kể. Đây là bước quan trọng để ước lượng sơ bộ bằng toán học số cụm nhằm bắt đầu thử nghiệm. Bạn sẽ lặp qua nhiều giá trị k và chạy thuật toán KMeans cho từng giá trị, sau đó vẽ biểu đồ lỗi theo từng k để xác định "khuỷu tay" nơi tốc độ giảm lỗi chậm lại.

Module KMeans đã được nạp từ sklearn.cluster, thư viện seaborn được nạp là sns, và module matplotlib.pyplot được nạp là plt. Đồng thời, tập dữ liệu đã được scale được nạp dưới tên wholesale_scaled_df dưới dạng pandas DataFrame.

Hướng dẫn

100 XP
  • Tạo dictionary sse rỗng.
  • Fit thuật toán KMeans trên các giá trị k từ 1 đến 11 và lưu các lỗi vào dictionary sse.
  • Thêm tiêu đề cho biểu đồ.
  • Tạo biểu đồ scatter với keys trên trục X và values trên trục Y, rồi hiển thị biểu đồ.