1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Ensemble Methods in Python

Connected

Bài tập

Dự đoán xếp hạng của một ứng dụng

Sau khi đã khám phá bộ dữ liệu Google apps ở bài trước, giờ hãy xây dựng một mô hình dự đoán xếp hạng (rating) của ứng dụng dựa trên một tập con các đặc trưng của nó.

Để làm điều này, bạn sẽ dùng DecisionTreeRegressor của scikit-learn. Vì cây quyết định là nền tảng của nhiều mô hình ensemble, ôn lại cách chúng hoạt động sẽ rất hữu ích cho bạn trong suốt khóa học này.

Chúng ta sẽ dùng MAE (mean absolute error) làm thước đo đánh giá. Chỉ số này rất dễ diễn giải, vì nó biểu thị độ lệch tuyệt đối trung bình giữa xếp hạng thực tế và xếp hạng dự đoán.

Tất cả các mô-đun cần thiết đã được nhập sẵn. Các đặc trưng và mục tiêu lần lượt có trong biến X và y.

Hướng dẫn

100 XP
  • Dùng train_test_split() để chia X và y thành tập huấn luyện và kiểm tra. Dùng 20%, tức 0.2, làm kích thước tập kiểm tra.
  • Khởi tạo DecisionTreeRegressor(), reg_dt, với các siêu tham số: min_samples_leaf = 3 và min_samples_split = 9.
  • Huấn luyện mô hình trên tập huấn luyện bằng .fit().
  • Dự đoán nhãn của tập kiểm tra bằng .predict().