1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Ensemble Methods in Python

Connected

Bài tập

Dự đoán doanh thu phim

Hãy bắt đầu thử thách dự đoán doanh thu phim bằng cách xây dựng một mô hình hồi quy tuyến tính đơn giản để ước lượng log-doanh thu dựa trên đặc trưng 'budget'. Thước đo bạn sẽ dùng ở đây là RMSE (root mean squared error). Để tính bằng scikit-learn, bạn có thể dùng hàm mean_squared_error() từ module sklearn.metrics, rồi lấy căn bậc hai của nó bằng numpy.

Bộ dữ liệu movies đã được tải sẵn và chia thành tập huấn luyện và kiểm tra. Ngoài ra, các giá trị khuyết đã được thay bằng 0. Chúng tôi cũng đã tiêu chuẩn hóa đặc trưng đầu vào bằng StandardScaler(). Xem các khóa học của DataCamp về làm sạch dữ liệu và kỹ thuật đặc trưng nếu bạn muốn tìm hiểu thêm về tiền xử lý cho Machine Learning.

Hướng dẫn

100 XP
  • Khởi tạo mô hình LinearRegression mặc định.
  • Tính các dự đoán trên tập kiểm tra.
  • Tính RMSE. Hàm mean_squared_error() cần hai đối số: y_test, tiếp theo là các dự đoán.