Transformasi data train dan test (I)
Sejauh ini Anda telah membuat scaler berdasarkan sebuah kolom, lalu menerapkannya pada data yang sama dengan data tempat scaler tersebut dilatih. Saat membuat model Machine Learning, Anda umumnya membangun model pada data historis (train set) dan menerapkan model pada data baru yang belum pernah dilihat (test set). Dalam kasus ini, Anda perlu memastikan bahwa skala yang sama diterapkan pada data train dan test. Untuk melakukannya dalam praktik, latih scaler pada train set, lalu simpan scaler terlatih tersebut untuk diterapkan pada test set. Anda tidak boleh melatih ulang scaler pada test set.
Untuk latihan ini dan berikutnya, kami membagi DataFrame so_numeric_df menjadi himpunan train (so_train_numeric) dan test (so_test_numeric).
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Instansiasikan
StandardScaler()sebagaiSS_scaler. - Lakukan fit
StandardScalerpada kolomAge. - Transformasikan kolom
Agepada test set (so_test_numeric).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import StandardScaler
from sklearn.preprocessing import StandardScaler
# Apply a standard scaler to the data
SS_scaler = ____
# Fit the standard scaler to the data
____
# Transform the test data using the fitted scaler
so_test_numeric['Age_ss'] = ____
print(so_test_numeric[['Age', 'Age_ss']].head())