Menskalakan data
Untuk algoritma ML yang menggunakan metrik berbasis jarak, sangat penting untuk selalu menskalakan data Anda, karena fitur dengan skala berbeda akan mendistorsi hasil Anda. K-means menggunakan jarak Euclidean untuk menilai jarak ke centroid klaster, oleh karena itu Anda perlu menstandarkan skala data terlebih dahulu sebelum melanjutkan mengimplementasikan algoritma. Mari kita lakukan itu terlebih dahulu.
Tersedia dataframe df dari latihan sebelumnya, dengan beberapa penyiapan data minor sehingga siap Anda gunakan dengan sklearn. Label kecurangan disimpan terpisah di labels, Anda dapat menggunakannya untuk memeriksa hasil nanti. numpy telah diimpor sebagai np.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
- Impor
MinMaxScaler. - Ubah dataframe
dfAnda menjadi array numpyXdengan hanya mengambil nilai daridfdan pastikan semua bernilaifloat. - Terapkan scaler yang telah didefinisikan pada
Xuntuk memperoleh nilai terskalakanX_scaledagar semua fitur berada pada skala 0–1.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the scaler
from sklearn.preprocessing import ____
# Take the float values of df for X
X = df.values.astype(np.____)
# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)