1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện bất thường với Python

Connected

Bài tập

Luyện tập chuẩn hóa (standardization)

Rất rủi ro nếu dùng KNN một cách mù quáng trên các phân phối chưa biết. Hiệu năng của nó giảm mạnh khi các phân phối của đặc trưng không cùng thang đo. Các đặc trưng chưa được scale sẽ làm sai lệch tính toán khoảng cách và trả về điểm bất thường không thực tế.

Một kỹ thuật phổ biến để khắc phục là chuẩn hóa (standardization), bằng cách trừ đi giá trị trung bình của một đặc trưng rồi chia cho độ lệch chuẩn. Cách này giúp đặc trưng có trung bình 0 và phương sai 1.

Hãy luyện tập chuẩn hóa trên dữ liệu females, đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Tạo một thể hiện của StandardScaler() và lưu là ss.
  • Trích xuất mảng đặc trưng và mục tiêu vào X và y. Cột mục tiêu là weightkg.
  • Fit StandardScaler() lên X và transform đồng thời.
  • Lặp lại bước trên nhưng giữ nguyên tên cột của DataFrame X.