1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Feature Engineering cho Machine Learning bằng Python

Connected

Bài tập

Biến đổi trên tập huấn luyện và kiểm tra (I)

Đến giờ bạn đã tạo các scaler dựa trên một cột và áp dụng scaler đó cho chính dữ liệu mà nó được huấn luyện. Khi xây dựng mô hình Machine Learning, bạn thường huấn luyện mô hình trên dữ liệu lịch sử (tập train) và áp dụng mô hình cho dữ liệu mới chưa thấy trước đó (tập test). Trong các trường hợp này, bạn cần đảm bảo cùng một cách chuẩn hóa được áp dụng cho cả dữ liệu train và test. Trong thực tế, bạn sẽ huấn luyện scaler trên tập train và giữ lại scaler đã huấn luyện để áp dụng cho tập test. Bạn không bao giờ nên huấn luyện lại scaler trên tập test.

Trong bài này và bài tiếp theo, chúng ta chia DataFrame so_numeric_df thành tập train (so_train_numeric) và tập test (so_test_numeric).

Hướng dẫn

100 XP
  • Khởi tạo StandardScaler() với tên SS_scaler.
  • Fit StandardScaler trên cột Age.
  • Transform cột Age trong tập test (so_test_numeric).