1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Gradient Boosting Cực Mạnh với XGBoost

Connected

Bài tập

Đo lường độ chính xác

Bây giờ bạn sẽ thực hành sử dụng API học của XGBoost thông qua khả năng cross-validation tích hợp sẵn. Như Sergey đã đề cập ở video trước, XGBoost đạt hiệu năng và hiệu quả cao nhờ sử dụng cấu trúc dữ liệu được tối ưu riêng cho tập dữ liệu, gọi là DMatrix.

Ở bài trước, các tập dữ liệu đầu vào đã được chuyển đổi thành dữ liệu DMatrix ngay trong quá trình chạy, nhưng khi bạn dùng đối tượng cv của xgboost, bạn cần chuyển dữ liệu sang DMatrix một cách tường minh trước. Vì vậy, ở đây bạn sẽ làm bước đó trước khi chạy cross-validation trên churn_data.

Hướng dẫn

100 XP
  • Tạo một DMatrix tên là churn_dmatrix từ churn_data bằng xgb.DMatrix(). Các đặc trưng nằm trong X và nhãn nằm trong y.
  • Thực hiện cross-validation 3-fold bằng cách gọi xgb.cv(). dtrain là churn_dmatrix của bạn, params là từ điển tham số, nfold là số lượng fold cross-validation (3), num_boost_round là số lượng cây cần xây dựng (5), metrics là chỉ số bạn muốn tính (ở đây là "error", chúng ta sẽ chuyển đổi sang độ chính xác).