1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Gradient Boosting Cực Mạnh với XGBoost

Connected

Bài tập

XGBoost: Fit/Predict

Đến lúc bạn tạo mô hình XGBoost đầu tiên! Như Sergey đã minh họa trong video, bạn có thể dùng khuôn mẫu scikit-learn .fit() / .predict() mà bạn đã quen thuộc để xây dựng mô hình XGBoost, vì thư viện xgboost có API tương thích với scikit-learn!

Ở đây, bạn sẽ làm việc với dữ liệu churn. Bộ dữ liệu này chứa dữ liệu giả lập từ một ứng dụng gọi xe, gồm hành vi người dùng trong tháng đầu sử dụng ứng dụng tại một số thành phố giả định, cùng thông tin liệu họ còn dùng dịch vụ sau 5 tháng kể từ khi đăng ký hay không. Dữ liệu đã được nạp sẵn vào DataFrame tên churn_data — hãy khám phá trong Shell!

Mục tiêu của bạn là dùng dữ liệu trong tháng đầu để dự đoán liệu người dùng vẫn tiếp tục sử dụng dịch vụ ở mốc 5 tháng hay không. Đây là thiết lập điển hình cho bài toán dự đoán churn. Để làm điều này, bạn sẽ chia dữ liệu thành tập huấn luyện và kiểm tra, huấn luyện một mô hình xgboost nhỏ trên tập huấn luyện, và đánh giá hiệu năng trên tập kiểm tra bằng cách tính độ chính xác (accuracy).

pandas và numpy đã được nhập là pd và np, và train_test_split đã được nhập từ sklearn.model_selection. Ngoài ra, mảng đặc trưng và mục tiêu đã được tạo sẵn lần lượt là X và y.

Hướng dẫn

100 XP
  • Import xgboost với bí danh xgb.
  • Tạo tập huấn luyện và kiểm tra sao cho 20% dữ liệu dành cho kiểm tra. Dùng random_state bằng 123.
  • Khởi tạo một XGBoostClassifier là xg_cl bằng xgb.XGBClassifier(). Chỉ định n_estimators là 10 bộ học và objective là 'binary:logistic'. Chưa cần bận tâm ý nghĩa của chúng; bạn sẽ học về các tham số này ở phần sau của khóa học.
  • Fit xg_cl lên tập huấn luyện (X_train, y_train) bằng phương thức .fit().
  • Dự đoán nhãn của tập kiểm tra (X_test) bằng phương thức .predict() và nhấn "Gửi câu trả lời" để in ra độ chính xác.