Latihan standardisasi
Berbahaya menggunakan KNN secara membabi buta pada sebaran yang tidak dikenal. Kinerjanya akan sangat menurun ketika sebaran fitur tidak berada pada skala yang sama. Fitur yang tidak diskalakan akan mengacaukan perhitungan jarak dan menghasilkan skor anomali yang tidak realistis.
Teknik umum untuk mengatasinya adalah standardisasi, yaitu mengurangkan mean dari suatu fitur lalu membaginya dengan simpangan baku. Dampaknya, fitur akan memiliki mean 0 dan varians 1.
Latih standardisasi pada himpunan data females, yang sudah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Deteksi Anomali dengan Python
Petunjuk latihan
- Buat instance
StandardScaler()dan simpan sebagaiss. - Ekstrak array fitur dan target ke
Xdany. Targetnya adalah kolomweightkg. - Fit
StandardScaler()ke X dan transformasikan sekaligus. - Ulangi proses di atas, tetapi pertahankan nama kolom pada DataFrame
X.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from sklearn.preprocessing import StandardScaler
# Initialize a StandardScaler
ss = ____
# Extract feature and target arrays
X = ____
y = ____
# Fit/transform X
X_transformed = ____
# Fit/transform X but preserve the column names
X.____ = ____