MulaiMulai sekarang secara gratis

Menskalakan data

Untuk algoritma ML yang menggunakan metrik berbasis jarak, sangat penting untuk selalu menskalakan data Anda, karena fitur dengan skala berbeda akan mendistorsi hasil Anda. K-means menggunakan jarak Euclidean untuk menilai jarak ke centroid klaster, oleh karena itu Anda perlu menstandarkan skala data terlebih dahulu sebelum melanjutkan mengimplementasikan algoritma. Mari kita lakukan itu terlebih dahulu.

Tersedia dataframe df dari latihan sebelumnya, dengan beberapa penyiapan data minor sehingga siap Anda gunakan dengan sklearn. Label kecurangan disimpan terpisah di labels, Anda dapat menggunakannya untuk memeriksa hasil nanti. numpy telah diimpor sebagai np.

Latihan ini adalah bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Petunjuk latihan

  • Impor MinMaxScaler.
  • Ubah dataframe df Anda menjadi array numpy X dengan hanya mengambil nilai dari df dan pastikan semua bernilai float.
  • Terapkan scaler yang telah didefinisikan pada X untuk memperoleh nilai terskalakan X_scaled agar semua fitur berada pada skala 0–1.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the scaler
from sklearn.preprocessing import ____

# Take the float values of df for X
X = df.values.astype(np.____)

# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)
Edit dan Jalankan Kode