1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Giảm Chiều Dữ Liệu với R

Connected

Bài tập

Tạo recipe lọc tương quan cao

Khi bạn đã xác định được các đặc trưng có tương quan cao, thay vì tự xóa thủ công, bạn có thể dùng bước recipe step_corr() trong tidymodels. step_corr() không xóa tất cả các đặc trưng tương quan với đặc trưng khác. Nó cố gắng xóa ít đặc trưng nhất có thể. Về mặt khái niệm, như bạn đã thấy trong bài trắc nghiệm, nó sẽ xóa đặc trưng có mức trùng lặp thông tin lớn nhất với bất kỳ tổ hợp đặc trưng nào khác. Ý tưởng là các đặc trưng còn lại chứa cùng lượng thông tin, nên phần thông tin trùng lặp của đặc trưng bị xóa vẫn được thể hiện trong các đặc trưng kia.

Các gói tidyverse và tidymodels đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Tạo một recipe dùng step_corr() với ngưỡng 0.7, chỉ áp dụng bước này cho các biến dự báo dạng số.
  • Áp dụng recipe lên house_sales_df và lưu dữ liệu đã được lọc vào filtered_house_sales_df.
  • Dùng tidy() để xác định cột hoặc các cột mà bộ lọc step_corr() đã loại bỏ.