1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân cụm bằng R

Connected

Bài tập

Ảnh hưởng của thang đo

Bạn đã biết rằng khi một biến có thang đo lớn hơn các biến khác trong dữ liệu, nó có thể ảnh hưởng quá mức đến khoảng cách được tính giữa các quan sát. Hãy xem điều này diễn ra thế nào với một mẫu dữ liệu từ bộ dữ liệu trees.

Bạn sẽ sử dụng hàm scale() — mặc định sẽ căn giữa (center) và chuẩn hóa (scale) các đặc trưng cột.

Các biến của chúng ta gồm:

  • Girth - đường kính thân cây tính bằng inch
  • Height - chiều cao cây tính bằng inch

Hướng dẫn

100 XP
  • Tính ma trận khoảng cách cho data frame three_trees và lưu vào dist_trees.
  • Tạo biến mới scaled_three_trees trong đó dữ liệu three_trees được căn giữa và chuẩn hóa.
  • Tính và in ma trận khoảng cách cho scaled_three_trees và lưu vào dist_scaled_trees.
  • Xuất cả hai ma trận dist_trees và dist_scaled_trees, rồi quan sát sự thay đổi của các quan sát có khoảng cách nhỏ nhất giữa hai ma trận (gợi ý: chúng đã thay đổi).