1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning End-to-End

Connected

Bài tập

Chọn đặc trưng (Feature selection)

Khi chuẩn bị dữ liệu để xây dựng mô hình, điều quan trọng là đảm bảo bạn có một tập đặc trưng hữu ích để mô hình dựa vào đó đưa ra dự đoán (hoặc chẩn đoán). Để thực sự hữu ích, các đặc trưng cần nắm bắt những đặc điểm cốt lõi của bộ dữ liệu bệnh tim theo cách độc lập/ít trùng lặp; nhiều dữ liệu hơn không phải lúc nào cũng tốt hơn!

Bạn có thể dùng mô-đun sklearn.feature_selection.SelectFromModel để chọn các đặc trưng hữu ích. SelectFromModel triển khai một phương pháp vét cạn sử dụng mô hình RandomForestClassifier để tìm ra các đặc trưng nổi bật nhất cho bài toán chẩn đoán bệnh tim.

RandomForestClassifier đã được import và dữ liệu đặc trưng cùng mục tiêu của bài toán bệnh tim đã được import dưới tên X_train và y_train.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Định nghĩa một random forest classifier với n_jobs = -1, class_weight 'balanced', và max_depth = 5, rồi huấn luyện trên heart_disease_df bằng .fit() để phục vụ chọn đặc trưng.