1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học có giám sát với scikit-learn

Connected

Bài tập

Tinh chỉnh siêu tham số với RandomizedSearchCV

Như bạn đã thấy, GridSearchCV có thể tốn nhiều chi phí tính toán, đặc biệt khi bạn tìm kiếm trên không gian siêu tham số lớn. Trong trường hợp này, bạn có thể dùng RandomizedSearchCV, phương pháp sẽ thử một số lượng cố định các cấu hình siêu tham số được lấy mẫu từ các phân phối xác suất xác định trước.

Các tập huấn luyện và kiểm tra từ diabetes_df đã được nạp sẵn cho bạn dưới dạng X_train, X_test, y_train, và y_test, trong đó biến mục tiêu là "diabetes". Một mô hình logistic regression đã được tạo và lưu dưới tên logreg, cùng với một biến KFold lưu trong kf.

Bạn sẽ định nghĩa một dải siêu tham số và dùng RandomizedSearchCV (đã được import từ sklearn.model_selection) để tìm các siêu tham số tối ưu từ những lựa chọn này.

Hướng dẫn

100 XP
  • Tạo params, thêm "l1" và "l2" làm giá trị penalty, đặt C thành một dải gồm 50 giá trị float từ 0.1 đến 1.0, và class_weight là "balanced" hoặc một dictionary chứa 0:0.8, 1:0.2.
  • Tạo đối tượng Randomized Search CV, truyền mô hình và bộ tham số, và đặt cv bằng kf.
  • Fit logreg_cv với dữ liệu huấn luyện.
  • In ra các siêu tham số tốt nhất của mô hình và điểm chính xác (accuracy).