1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Tạo dữ liệu cho phân cụm

Dữ liệu tổng hợp (synthetic) là hợp pháp hoàn toàn và đáp ứng mọi yêu cầu của các luật và quy định về quyền riêng tư trên toàn thế giới. Đây là một lựa chọn hợp lệ, tôn trọng quyền riêng tư thay cho dữ liệu thô. Hàm make_blobs() có thể được dùng để tạo các điểm dữ liệu theo phân phối Gaussian (hay chuẩn).

Trong bài tập này, bạn sẽ tạo một tập dữ liệu gồm 15000 mẫu.

numpy đã được import sẵn với tên np, và hàm tùy chỉnh plot_data_points() cũng đã được cung cấp lại cho bài tập này.

Hướng dẫn

100 XP
  • Import hàm tương ứng từ mô-đun datasets để tạo tập dữ liệu cho phân cụm.
  • Tạo một tập dữ liệu gồm 15000 mẫu với 2 đặc trưng, 2 tâm cụm, và độ lệch chuẩn của cụm là 3.
  • In shape của dữ liệu được tạo.
  • Quan sát các điểm dữ liệu thu được bằng biểu đồ scatter 2 chiều.