Standardization
Walau normalisasi berguna untuk menskalakan sebuah kolom di antara dua titik data, membandingkan dua kolom yang telah diskalakan menjadi sulit jika salah satunya sangat dipengaruhi oleh pencilan. Solusi yang umum digunakan adalah standardization, yaitu alih-alih memiliki batas atas dan bawah yang kaku, Anda memusatkan data pada nilai mean-nya, lalu menghitung berapa banyak simpangan baku setiap titik data dari mean.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Petunjuk latihan
- Impor
StandardScalerdari modulpreprocessingmiliksklearn. - Instansiasikan
StandardScaler()sebagaiSS_scaler. - Fit
StandardScalerpada kolomAgedariso_numeric_df. - Transformasikan kolom yang sama dengan pengubah skala (scaler) yang baru saja Anda fit.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())