1. Учиться
  2. /
  3. Courses
  4. /
  5. Phát hiện gian lận với Python

Connected

Exercise

Áp dụng SMOTE

Trong bài tập này, bạn sẽ cân bằng lại dữ liệu bằng Synthetic Minority Over-sampling Technique (SMOTE). Khác với ROS, SMOTE không tạo các bản sao y hệt quan sát, mà tạo ra các mẫu tổng hợp mới khá giống với các quan sát hiện có trong lớp thiểu số. Vì vậy, SMOTE tinh vi hơn một chút so với việc chỉ sao chép quan sát. Hãy áp dụng SMOTE cho dữ liệu thẻ tín dụng của chúng ta. Bộ dữ liệu df đã sẵn có và các gói cần cho SMOTE cũng đã được nhập. Ở bài tập tiếp theo, bạn sẽ trực quan hóa kết quả và so sánh với dữ liệu gốc để thấy rõ tác động của việc áp dụng SMOTE.

Инструкции

100 XP
  • Dùng hàm prep_data trên df để tạo đặc trưng X và nhãn y.
  • Định nghĩa phương pháp tái lấy mẫu là SMOTE dạng chuẩn, gán vào biến method.
  • Dùng .fit_resample() trên X và y gốc để thu được dữ liệu đã tái lấy mẫu.
  • Vẽ dữ liệu đã tái lấy mẫu bằng hàm plot_data().