1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Baseline dựa trên ngày giờ

Chúng ta đã xây dựng 3 mô hình baseline khác nhau. Để luyện tập thêm, hãy xây thêm vài mô hình nữa. Mô hình đầu tiên dựa trên biến nhóm. Rõ ràng giá cước có thể phụ thuộc vào thời điểm trong ngày. Ví dụ, giá có thể cao hơn vào giờ cao điểm.

Mục tiêu của bạn là xây dựng một mô hình baseline gán giá trị trung bình "fare_amount" theo từng giờ tương ứng. Trước mắt, bạn sẽ tạo mô hình trên toàn bộ dữ liệu train và tạo dự đoán cho tập test.

Hai DataFrame train và test đã có sẵn trong không gian làm việc của bạn. Ngoài ra, cột "pickup_datetime" ở cả hai DataFrame đã được chuyển sang đối tượng datetime cho bạn.

Hướng dẫn

100 XP
  • Lấy giá trị giờ từ cột "pickup_datetime" cho cả DataFrame train và test.
  • Tính giá trị trung bình "fare_amount" cho mỗi giờ trên dữ liệu train.
  • Tạo dự đoán cho test bằng phương thức map() của pandas và nhóm đã thu được.
  • Ghi các dự đoán ra tệp.