1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Chuẩn hóa (Standardization)

Mặc dù normalization (chuẩn hóa về khoảng) hữu ích để co giãn một cột vào giữa hai mốc giá trị, việc so sánh hai cột đã được scale trở nên khó khăn nếu chỉ một trong chúng bị ngoại lệ (outlier) ảnh hưởng quá mạnh. Một giải pháp thường dùng cho vấn đề này là standardization (chuẩn hóa theo phân phối), trong đó thay vì đặt cận trên và cận dưới cố định, bạn đưa dữ liệu về quanh giá trị trung bình của nó và tính xem mỗi điểm dữ liệu lệch bao nhiêu độ lệch chuẩn so với trung bình.

Hướng dẫn

100 XP
  • Import StandardScaler từ module preprocessing của sklearn.
  • Khởi tạo StandardScaler() và gán vào SS_scaler.
  • Fit StandardScaler trên cột Age của so_numeric_df.
  • Transform cùng cột đó bằng scaler bạn vừa fit.