1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning với Mô hình Dựa trên Cây trong R

Connected

Bài tập

Mức độ quan trọng của biến

Bạn đã biết rằng bagged trees là một mô hình ensemble giúp khắc phục vấn đề phương sai cao của cây quyết định. Giờ đây, bạn học thêm rằng thuật toán random forest còn cải thiện hơn nữa bằng cách chỉ dùng một tập con ngẫu nhiên của các đặc trưng trong mỗi cây. Cách này làm giảm tương quan giữa các cây trong ensemble, từ đó cải thiện hiệu năng dự đoán.

Trong bài tập này, bạn sẽ tự xây dựng một random forest và vẽ mức độ quan trọng của các biến dự báo bằng gói vip. Dữ liệu huấn luyện customers_train đã được nạp sẵn trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Tạo spec, đặc tả của một mô hình phân loại random forest dùng engine "ranger" và kiểu quan trọng biến "impurity".
  • Tạo model bằng cách fit tibble customers_train vào spec với still_customer là biến mục tiêu và tất cả các cột còn lại là biến dự báo.
  • Vẽ biểu đồ mức độ quan trọng của biến bằng hàm vip() từ gói vip (gói này chưa được nạp sẵn).