1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân cụm bằng R

Connected

Bài tập

Tính khoảng cách giữa các biến phân loại

Trong bài tập này, bạn sẽ khám phá cách tính khoảng cách nhị phân (Jaccard). Để tính khoảng cách, trước tiên chúng ta sẽ phải biến đổi các danh mục thành biến giả (dummify) bằng dummy.data.frame() từ thư viện dummies.

Bạn sẽ sử dụng một tập nhỏ các phản hồi khảo sát được lưu trong data frame job_survey với các cột sau:

  • job_satisfaction Các lựa chọn có thể: "Hi", "Mid", "Low"
  • is_happy Các lựa chọn có thể: "Yes", "No"

Hướng dẫn

100 XP
  • Tạo một data frame đã dummify dummy_survey.
  • Tạo ma trận khoảng cách Jaccard cho dữ liệu khảo sát đã dummify dist_survey bằng hàm dist() với tham số method = 'binary'.
  • In ra dữ liệu gốc và ma trận khoảng cách.
    • Lưu ý các quan sát có khoảng cách bằng 0 trong dữ liệu gốc (1, 2 và 3).