Loại bỏ ngoại lệ theo thống kê

Việc loại bỏ N% điểm dữ liệu cao nhất hữu ích để đảm bảo các điểm nhiễu bị loại đi, nhưng nhược điểm là luôn loại cùng một tỷ lệ điểm, ngay cả khi dữ liệu là hợp lệ. Một cách thay thế thường dùng là loại các điểm nằm xa hơn ba độ lệch chuẩn so với trung bình. Bạn có thể thực hiện bằng cách trước tiên tính trung bình và độ lệch chuẩn của cột liên quan để tìm ra ngưỡng trên và dưới, rồi áp dụng các ngưỡng này làm mặt nạ (mask) cho DataFrame. Cách này đảm bảo chỉ loại dữ liệu thật sự khác biệt so với phần còn lại, và sẽ loại ít điểm hơn nếu dữ liệu tập trung sát nhau.

Tính độ lệch chuẩn và giá trị trung bình của cột ConvertedSalary trong so_numeric_df.
Tính ngưỡng trên và ngưỡng dưới là ba độ lệch chuẩn cách xa giá trị trung bình theo cả hai phía.
Cắt lọc DataFrame so_numeric_df để giữ lại tất cả các hàng mà ConvertedSalary nằm trong khoảng giữa lower và upper.

Bài tập

Loại bỏ ngoại lệ theo thống kê

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập