1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích dự đoán với dữ liệu mạng trong R

Connected

Bài tập

Các biến tương quan

Trong bài tập này, bạn sẽ xem xét tập dữ liệu liên quan đến các biến có tương quan. Điều quan trọng là phải loại bỏ chúng trước khi áp dụng bộ phân loại nhị phân, đặc biệt là với logistic regression. Khi hai hay nhiều biến tương quan rất cao, bạn nên giữ lại một biến và loại bỏ các biến còn lại.

Đầu tiên, chúng ta sẽ dùng hàm corrplot() trong gói corrplot để trực quan hóa ma trận tương quan. Trong biểu đồ tương quan, màu xanh dương biểu thị tương quan dương và màu đỏ biểu thị tương quan âm. Màu càng đậm thì mức độ tương quan càng cao. Cuối cùng, bạn sẽ loại bỏ các biến có tương quan cao khỏi tập dữ liệu.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Nạp gói corrplot.
  • Tạo ma trận tương quan M bằng hàm cor(). Hàm này nhận một phần con của tập dữ liệu làm đối số.
  • Trực quan hóa tương quan giữa các biến bằng corrplot() và M.