1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Bộ dữ liệu tổng hợp nhất quán

Một kịch bản phổ biến mà các công ty sử dụng dữ liệu tổng hợp là để huấn luyện các mô hình trí tuệ nhân tạo và Machine Learning. Dữ liệu thực tế đôi khi tốn kém để thu thập hoặc đơn giản là khó có được. Khi dữ liệu huấn luyện bị mất cân bằng mạnh (ví dụ: hơn 90% quan sát thuộc về một lớp), việc tạo dữ liệu tổng hợp có thể giúp xây dựng các mô hình Machine Learning chính xác.

Trong bài tập này, bạn sẽ tạo một bộ dữ liệu đánh giá ứng dụng di động bằng Faker.

DataFrame ban đầu được nạp là ratings với hai cột: rating và gender. Trình tạo Faker() đã được khởi tạo sẵn cho bạn với tên fake_data.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Tạo cột name trong DataFrame ratings chứa các tên duy nhất tương ứng với cột gender.