1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân cụm bằng R

Connected

Bài tập

Xem lại dữ liệu bán buôn: k "tốt nhất"

Cuối Chương 2 bạn đã khám phá dữ liệu nhà phân phối bán buôn customers_spend bằng phân cụm phân cấp. Lần này bạn sẽ phân tích dữ liệu này bằng k-means theo những gì đã học trong chương này.

Bước đầu tiên là xác định giá trị k "tốt nhất" bằng độ rộng silhouette trung bình.

Ôn lại về dữ liệu: dữ liệu chứa số tiền chi tiêu của 45 khách hàng khác nhau của một nhà phân phối bán buôn cho các nhóm thực phẩm Milk, Grocery và Frozen. Dữ liệu được lưu trong data frame customers_spend. Với bài này bạn có thể giả định rằng vì tất cả dữ liệu cùng một loại (số tiền chi tiêu) nên bạn không cần chuẩn hóa (scale) dữ liệu.

Hướng dẫn

100 XP
  • Dùng map_dbl() để chạy pam() với dữ liệu customers_spend cho các giá trị k từ 2 đến 10 và trích xuất giá trị độ rộng silhouette trung bình từ mỗi mô hình: model$silinfo$avg.width. Lưu vector kết quả vào sil_width.
  • Tạo một data frame mới sil_df chứa các giá trị k và vector độ rộng silhouette trung bình.
  • Dùng các giá trị trong sil_df để vẽ biểu đồ đường thể hiện mối quan hệ giữa k và độ rộng silhouette trung bình.