1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học không giám sát với R

Connected

Bài tập

Vấn đề thực hành: chuẩn hóa (scaling)

Hãy nhớ từ video rằng khi phân cụm dữ liệu thực tế, bạn có thể cần chuẩn hóa (scaling) các đặc trưng nếu chúng có phân phối khác nhau. Đến giờ trong chương này, bạn đang làm việc với dữ liệu tổng hợp nên không cần chuẩn hóa.

Trong bài tập này, bạn sẽ quay lại làm việc với dữ liệu "thực" — bộ dữ liệu pokemon được giới thiệu ở chương đầu. Bạn sẽ quan sát phân phối (trung bình và độ lệch chuẩn) của từng đặc trưng, chuẩn hóa dữ liệu tương ứng, rồi xây dựng một mô hình phân cụm phân cấp (hierarchical clustering) dùng phương pháp liên kết hoàn chỉnh (complete linkage).

Hướng dẫn

100 XP

Dữ liệu được lưu trong đối tượng pokemon trong không gian làm việc của bạn.

  • Xem giá trị trung bình của từng biến trong pokemon bằng hàm colMeans().
  • Xem độ lệch chuẩn của từng biến bằng các hàm apply() và sd(). Vì các biến nằm ở các cột của ma trận, hãy đảm bảo chỉ định 2 cho đối số MARGIN của apply().
  • Chuẩn hóa dữ liệu pokemon bằng hàm scale() và lưu kết quả vào pokemon.scaled.
  • Tạo một mô hình phân cụm phân cấp cho dữ liệu pokemon.scaled dùng phương pháp liên kết hoàn chỉnh (complete linkage). Tự chỉ định đối số method và lưu kết quả vào hclust.pokemon.