1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học có giám sát với scikit-learn

Connected

Bài tập

Hồi quy với đặc trưng phân loại (categorical)

Giờ bạn đã tạo music_dummies với các đặc trưng nhị phân cho từng thể loại bài hát, hãy xây dựng mô hình ridge regression để dự đoán độ phổ biến của bài hát.

music_dummies đã được nạp sẵn cho bạn, cùng với Ridge, cross_val_score, numpy là np, và một đối tượng KFold lưu trong kf.

Mô hình sẽ được đánh giá bằng cách tính RMSE trung bình, nhưng trước hết, bạn cần chuyển đổi điểm số của mỗi fold về giá trị dương và lấy căn bậc hai. Thước đo này cho thấy sai số trung bình của dự đoán, vì vậy có thể so sánh với độ lệch chuẩn của biến mục tiêu — "popularity".

Hướng dẫn

100 XP
  • Tạo X chứa toàn bộ đặc trưng trong music_dummies, và y là cột "popularity" tương ứng.
  • Khởi tạo mô hình ridge regression, đặt alpha bằng 0.2.
  • Thực hiện cross-validation trên X và y với mô hình ridge, đặt cv bằng kf, và dùng negative mean squared error làm thước đo chấm điểm.
  • In các giá trị RMSE bằng cách đổi scores âm thành dương và lấy căn bậc hai.