Standard scaling
Standard scaling mengubah fitur numerik agar memiliki mean 0 dan varians 1. Pada latihan ini, Anda akan melakukan standard scaling menggunakan StandardScaler() dari sklearn. Pertama, Anda akan memilih hanya kolom yang relevan untuk diterapkan skala, dengan mengombinasikan pemfilteran kolom numerik serta pengetahuan tentang kolom. Pemfilteran ini sudah disediakan dan akan dilakukan menggunakan regular expression, yang memungkinkan pencocokan string parsial. Lalu Anda akan menggunakan fit_transform() untuk mentransformasi kolom-kolom yang relevan.
Modul pandas tersedia sebagai pd di workspace Anda dan DataFrame contoh dimuat sebagai df. Selain itu, kolom hour sudah dikonversi menjadi datetime, dan StandardScaler dari sklearn.preprocessing tersedia.
Latihan ini adalah bagian dari kursus
Memprediksi CTR dengan Machine Learning di Python
Petunjuk latihan
- Pilih kolom numerik, dan saring
filter_colsyang diberikan menggunakan.select_dtypes(). - Terapkan standard scaling pada kolom-kolom relevan dengan terlebih dahulu membuat
StandardScaler()lalu menggunakan.fit_transform(). - Cetak varians dari kolom-kolom yang baru ditransformasi menggunakan
.var().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Get non-categorical columns, with a filter
num_df = df.____(include=['int', 'float'])
filter_cols = ['click', 'banner_pos', 'device_type',
'search_engine_type', 'product_type', 'advertiser_type']
new_df = num_df[num_df.columns[~num_df.columns.____(filter_cols)]]
num_cols = new_df.____
# Transform columns using StandardScaler
scaler = ____()
df[num_cols] = scaler.____(df[____])
# Print mean and variance of transformed columns
print(df[num_cols].mean())
print(df[num_cols].____)