1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning End-to-End

Connected

Bài tập

Phát hiện data drift bằng kiểm định Kolmogorov–Smirnov

Sau khi triển khai thành công mô hình dự đoán bệnh tim, bạn đã theo dõi hiệu suất và dữ liệu đầu vào của mô hình. Bạn nhận thấy phân phối của một số đặc trưng quan trọng trong dữ liệu thu thập gần đây vào tháng 2 có vẻ khác so với dữ liệu bạn dùng để huấn luyện vào tháng 1. Những khác biệt như vậy có thể ảnh hưởng đến hiệu suất mô hình, vì vậy việc phát hiện và xử lý là rất quan trọng.

Trong bài tập này, bạn sẽ dùng kiểm định Kolmogorov–Smirnov (K-S) để phát hiện khả năng xảy ra data drift giữa hai tập dữ liệu tháng 1 và tháng 2. Các tập dữ liệu mẫu có tên january_data và february_data đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Import hàm ks_2samp từ mô-đun scipy.stats.
  • Sử dụng các tập dữ liệu mẫu january_data và february_data để thực hiện kiểm định Kolmogorov–Smirnov; tính thống kê kiểm định và p-value.
  • Kiểm tra xem p-value có nhỏ hơn 0.05 hay không (biểu thị có data drift); nếu phát hiện data drift, in "Data drift detected.", ngược lại in "No data drift detected."