1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Baseline dựa trên gradient boosting

Hãy xây dựng một baseline cuối cùng dựa trên Random Forest. Bạn đã thấy điểm số cải thiện rõ rệt khi chuyển từ baseline gom nhóm sang Gradient Boosting trong video. Giờ bạn sẽ dùng Random Forest của sklearn để tiếp tục cải thiện điểm số.

Mục tiêu của bài tập này là lấy các đặc trưng số và huấn luyện một mô hình Random Forest không tinh chỉnh siêu tham số. Sau đó, bạn có thể tạo dự đoán cho tập kiểm tra và xác thực kết quả trên Public Leaderboard. Lưu ý rằng bạn đã có đặc trưng "hour", đặc trưng này cũng có thể dùng làm đầu vào cho mô hình.

Hướng dẫn

100 XP
  • Thêm đặc trưng "hour" vào danh sách các đặc trưng số.
  • Huấn luyện RandomForestRegressor trên dữ liệu train với các đặc trưng số và "fare_amount" là mục tiêu.
  • Dùng mô hình Random Forest đã huấn luyện để tạo dự đoán trên dữ liệu test.