Menskalakan data
Untuk algoritma ML yang menggunakan metrik berbasis jarak, sangat penting untuk selalu menskalakan data Anda, karena fitur dengan skala berbeda akan mendistorsi hasil Anda. K-means menggunakan jarak Euclidean untuk menilai jarak ke centroid klaster, oleh karena itu Anda perlu menstandarkan skala data terlebih dahulu sebelum melanjutkan mengimplementasikan algoritma. Mari kita lakukan itu terlebih dahulu.
Tersedia dataframe df dari latihan sebelumnya, dengan beberapa penyiapan data minor sehingga siap Anda gunakan dengan sklearn. Label kecurangan disimpan terpisah di labels, Anda dapat menggunakannya untuk memeriksa hasil nanti. numpy telah diimpor sebagai np.
Latihan ini merupakan bagian dari kursus
Deteksi Kecurangan di Python
Instruksi latihan
- Impor
MinMaxScaler. - Ubah dataframe
dfAnda menjadi array numpyXdengan hanya mengambil nilai daridfdan pastikan semua bernilaifloat. - Terapkan scaler yang telah didefinisikan pada
Xuntuk memperoleh nilai terskalakanX_scaledagar semua fitur berada pada skala 0–1.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import the scaler
from sklearn.preprocessing import ____
# Take the float values of df for X
X = df.values.astype(np.____)
# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)