1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Machine Learning bằng Python

Connected

Bài tập

Xử lý giá trị ngoại lệ

Trong bài tập trước, bạn đã thấy việc trực quan hóa các điểm ngoại lệ có thể giúp ích thế nào trong một buổi phỏng vấn Machine Learning. Một cách tiện lợi khác để xử lý ngoại lệ là tính Z-score, vốn đặt một ngưỡng cho ngoại lệ xấp xỉ ±3 độ lệch chuẩn so với trung bình.

Trong bài tập này, bạn sẽ dùng mô-đun scipy.stats để tính Z-score với hàm stats.zscore() và dùng hàm mstats.winsorize() để thay thế các điểm ngoại lệ bằng kỹ thuật gọi là Winsorizing.

Nhắc lại từ bài giảng video: những điểm nằm trên và/hoặc dưới 1,5 lần IQR nên được xem xét là ngoại lệ tiềm năng. Ở bước cuối của bài tập này, giá trị đó là 2120.

Các gói liên quan đã được nhập sẵn cho bạn, và các cột số và cột phân loại của loan_data đã được tách và lưu lần lượt là numeric_cols và categoric_cols.

Machine learning pipeline

Hướng dẫn 1/3

undefined XP
  • 1
    • Tạo một chỉ mục các hàng cần giữ với z-score tuyệt đối nhỏ hơn 3 trên các cột số và dùng nó để lập chỉ mục rồi nối các tập con.
  • 2
    • Thực hiện Winsorize cho 'Monthly Debt' với cận trên và cận dưới 5%, rồi in ra mean, median và max trước và sau.
  • 3
    • Tìm trung vị của các giá trị Monthly Debt nhỏ hơn 2120 và thay thế các ngoại lệ bằng giá trị đó.