1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Tiền xử lý dữ liệu

Tiền xử lý cho phân cụm giúp chuẩn bị dữ liệu để phân đoạn chính xác hơn. Một dạng tiền xử lý là feature scaling (chuẩn hóa thang đo đặc trưng), kỹ thuật chuẩn hóa các đặc trưng độc lập trong dữ liệu về một khoảng cố định, ví dụ 0–1 hoặc 0–100.

Trong bài tập này, bạn sẽ thực hiện phân cụm trên các cột parental_level_of_education và writing_score trong bộ dữ liệu hiệu suất học tập đã được nạp với tên performance. Trước hết, bạn sẽ tạo và chạy mô hình k-means mà không áp dụng bất kỳ tiền xử lý nào. Sau đó, lặp lại nhưng có tiền xử lý dữ liệu bằng feature scaling.

Mô hình k-means riêng tư đã được import là KMeans từ diffprivlib.models. Bộ chuẩn hóa StandardScaler và kỹ thuật giảm chiều PCA đã được import từ sklearn.

Hướng dẫn 1/2

undefined XP
  • 1
    • Tạo mô hình phân cụm riêng tư với 4 cụm làm đối số.
    • Fit model với dữ liệu performance làm đối số.
  • 2
    • Chuẩn hóa dữ liệu bằng bộ chuẩn hóa scaler với phương thức .fit_transform().
    • Dùng pca để fit và biến đổi dữ liệu performance bằng phương thức .fit_transform().
    • Xây dựng mô hình riêng tư KMeans() với 4 cụm.
    • Fit model với dữ liệu performance.