1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Unsupervised Learning bằng Python

Connected

Bài tập

Đánh giá phân cụm hạt ngũ cốc

Ở bài trước, từ biểu đồ inertia bạn thấy rằng 3 là số cụm phù hợp cho dữ liệu hạt ngũ cốc. Thực tế, các mẫu này đến từ hỗn hợp 3 giống ngũ cốc khác nhau: "Kama", "Rosa" và "Canadian". Trong bài này, hãy phân cụm các mẫu thành ba cụm và so sánh các cụm với giống ngũ cốc bằng cách lập bảng chéo.

Bạn đã có mảng samples chứa các mẫu ngũ cốc và danh sách varieties cho biết giống của từng mẫu. Pandas (pd) và KMeans đã được import sẵn cho bạn.

Hướng dẫn

100 XP
  • Tạo một mô hình KMeans tên model với 3 cụm.
  • Dùng phương thức .fit_predict() của model để khớp mô hình với samples và suy ra nhãn cụm. Dùng .fit_predict() tương đương với .fit() rồi .predict().
  • Tạo DataFrame df với hai cột tên 'labels' và 'varieties', lần lượt dùng labels và varieties làm giá trị cột. Phần này đã được làm sẵn cho bạn.
  • Dùng hàm pd.crosstab() trên df['labels'] và df['varieties'] để đếm số lần mỗi giống ngũ cốc trùng với từng nhãn cụm. Gán kết quả cho ct.
  • Nhấn Gửi để xem bảng chéo!