1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Các Mô hình Hỗn hợp trong R

Connected

Bài tập

Khám phá dữ liệu giới tính

Dữ liệu gender chứa các chỉ số Weight, Height và BMI của 10.000 người. Dữ liệu gốc có nhãn Gender cho 5.000 người tự nhận là nữ và 5.000 người còn lại là nam. Các nhãn này sẽ hữu ích sau này để kiểm tra mức độ hoạt động của phân cụm so với nhãn thực. Tuy nhiên, trong tập con của bộ dữ liệu này, các nhãn không được cung cấp.

Dữ liệu gender_with_probs cũng chứa xác suất mỗi điểm dữ liệu thuộc về một cụm. Vì chúng ta quan tâm đến hai cụm, các xác suất gần 1 tương ứng với một cụm và gần 0 với cụm còn lại.

Mục tiêu của bài tập này là giúp bạn hình dung dữ liệu phân cụm điển hình trông như thế nào trước và sau khi phân cụm.

Hướng dẫn

100 XP
  • Dùng hàm head để xem 6 quan sát đầu tiên của gender.
  • Dùng hàm head để xem 6 quan sát đầu tiên của gender_with_probs.
  • Vẽ biểu đồ phân tán với Weight trên trục x và BMI trên trục y. Tô màu các điểm theo xác suất của chúng.