Chuẩn hóa dữ liệu (Scaling)

Với các thuật toán ML dựa trên khoảng cách, bạn luôn phải chuẩn hóa dữ liệu, vì các đặc trưng trên những thang đo khác nhau sẽ làm sai lệch kết quả. K-means dùng khoảng cách Euclid để đo khoảng cách tới tâm cụm, nên trước hết bạn cần chuẩn hóa dữ liệu rồi mới tiếp tục triển khai thuật toán. Hãy làm bước đó trước.

Đã có sẵn dataframe df từ bài trước, với một số chuẩn bị nhỏ để sẵn sàng dùng với sklearn. Nhãn gian lận được lưu riêng trong labels, bạn có thể dùng để kiểm tra kết quả sau. numpy đã được import với bí danh np.

Import MinMaxScaler.
Chuyển dataframe df thành một mảng numpy X bằng cách chỉ lấy các giá trị của df và đảm bảo tất cả đều là kiểu float.
Áp dụng scaler đã định nghĩa lên X để thu được các giá trị đã chuẩn hóa X_scaled, đưa mọi đặc trưng về thang 0-1.

Bài tập

Chuẩn hóa dữ liệu (Scaling)

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập