Menskalakan data

Untuk algoritma ML yang menggunakan metrik berbasis jarak, sangat penting untuk selalu menskalakan data Anda, karena fitur dengan skala berbeda akan mendistorsi hasil Anda. K-means menggunakan jarak Euclidean untuk menilai jarak ke centroid klaster, oleh karena itu Anda perlu menstandarkan skala data terlebih dahulu sebelum melanjutkan mengimplementasikan algoritma. Mari kita lakukan itu terlebih dahulu.

Tersedia dataframe df dari latihan sebelumnya, dengan beberapa penyiapan data minor sehingga siap Anda gunakan dengan sklearn. Label kecurangan disimpan terpisah di labels, Anda dapat menggunakannya untuk memeriksa hasil nanti. numpy telah diimpor sebagai np.

Latihan ini merupakan bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Instruksi latihan

Impor MinMaxScaler.
Ubah dataframe df Anda menjadi array numpy X dengan hanya mengambil nilai dari df dan pastikan semua bernilai float.
Terapkan scaler yang telah didefinisikan pada X untuk memperoleh nilai terskalakan X_scaled agar semua fitur berada pada skala 0–1.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the scaler
from sklearn.preprocessing import ____

# Take the float values of df for X
X = df.values.astype(np.____)

# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)

Edit dan Jalankan Kode