1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Các tập dữ liệu có cùng phân phối xác suất

Mục tiêu của dữ liệu tổng hợp là tạo ra một tập dữ liệu càng giống thật càng tốt, đồng thời không làm lộ các thông tin cá nhân quan trọng. Ví dụ, một nhóm tại Deloitte Consulting đã tạo ra 80% dữ liệu huấn luyện cho một mô hình machine learning bằng cách tổng hợp dữ liệu. Độ chính xác của mô hình thu được tương đương với mô hình được huấn luyện trên dữ liệu thật.

Trong bài tập này, bạn sẽ tự tạo một tập dữ liệu tổng hợp từ đầu bằng Faker sao cho tuân theo một phân phối xác suất đã được nạp là p.

Bộ tạo Faker là fake_data đã được khởi tạo sẵn và numpy đã được import với tên np.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo một danh sách gồm 5 thành phố ngẫu nhiên đặt tên là cities để thay thế các thành phố ban đầu bằng list comprehension.