1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

So sánh SMOTE với dữ liệu gốc

Trong bài trước, bạn đã thấy việc dùng SMOTE giúp tăng số quan sát của lớp thiểu số. Hãy so sánh các kết quả đó với dữ liệu ban đầu để hình dung rõ hơn điều gì đã xảy ra. Cùng xem lại số lượng từng giá trị ở cả dữ liệu cũ và mới, và vẽ hai biểu đồ scatter của dữ liệu cạnh nhau. Bạn sẽ dùng hàm dựng sẵn compare_plot() cho việc này, hàm nhận các đối số: X, y, X_resampled, y_resampled, method=''. Hàm sẽ vẽ dữ liệu gốc trong một biểu đồ scatter, cùng với dữ liệu đã lấy mẫu lại ở bên cạnh.

Hướng dẫn

100 XP
  • In số lượng từng giá trị của nhãn gốc y. Lưu ý y hiện là một mảng Numpy, nên để dùng value counts, ta sẽ gán y lại dưới dạng đối tượng pandas Series.
  • Lặp lại bước trên và in số lượng từng giá trị cho y_resampled. Điều này cho thấy sự cân bằng giữa hai lớp đã thay đổi như thế nào với SMOTE.
  • Dùng hàm dựng sẵn compare_plot() gọi trên cả dữ liệu gốc và dữ liệu đã lấy mẫu lại để xem hai biểu đồ scatter cạnh nhau.