1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tiền xử lý cho Machine Learning bằng Python

Connected

Bài tập

Lấy mẫu phân tầng

Giờ bạn đã biết rằng phân bố nhãn lớp trong cột category_desc của bộ dữ liệu volunteer là không đồng đều. Nếu bạn muốn huấn luyện một mô hình để dự đoán category_desc, bạn cần đảm bảo mô hình được huấn luyện trên một mẫu dữ liệu đại diện cho toàn bộ bộ dữ liệu. Lấy mẫu phân tầng là một cách để làm điều đó!

Hướng dẫn

100 XP
  • Tạo DataFrame đặc trưng, X, gồm tất cả các cột trừ category_desc.
  • Tạo DataFrame nhãn, y, từ cột category_desc.
  • Chia X và y thành tập huấn luyện và kiểm tra, đảm bảo phân bố lớp trong nhãn giống nhau ở cả hai tập
  • In nhãn và số lượng trong y_train bằng .value_counts().