1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Giảm Chiều Dữ Liệu với R

Connected

Bài tập

Giảm dữ liệu bằng độ quan trọng của đặc trưng

Bây giờ bạn đã xây dựng xong mô hình random forest đầy đủ, hãy khám phá độ quan trọng của đặc trưng.

Mặc dù mô hình random forest vốn dĩ — nhưng ngầm định — đã thực hiện chọn đặc trưng, việc xây dựng một mô hình rút gọn vẫn thường có lợi. Mô hình rút gọn huấn luyện nhanh hơn, dự đoán nhanh hơn, và dễ hiểu cũng như dễ quản lý hơn. Tất nhiên, luôn có sự đánh đổi giữa mức độ đơn giản của mô hình và hiệu năng mô hình.

Trong bài tập này, bạn sẽ rút gọn tập dữ liệu. Ở bài tập kế tiếp, bạn sẽ huấn luyện một mô hình rút gọn và so sánh hiệu năng của nó với mô hình đầy đủ. rf_fit, train, và test đã được cung cấp sẵn cho bạn.

Các gói tidyverse, tidymodels, và vip đã được nạp sẵn.

Hướng dẫn

100 XP
  • Dùng vi() với tham số rank để trích xuất 10 đặc trưng quan trọng nhất.
  • Thêm biến mục tiêu trở lại vào danh sách đặc trưng hàng đầu.
  • Áp dụng mặt nạ đặc trưng hàng đầu để rút gọn các tập dữ liệu.