1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Khám phá phân phối của dữ liệu

Khi muốn ẩn danh một tập dữ liệu bằng cách lấy mẫu theo cách rất sát thực tế, bạn cần có một chút hiểu biết về miền dữ liệu và thống kê. Như bạn đã thấy, việc xác định phân phối xác suất của cột quan tâm là then chốt.

Trong bài tập này, bạn sẽ khám phá cột business_travel từ phiên bản đơn giản hóa của bộ dữ liệu IBM HR.

DataFrame đã được nhập dưới tên hr và numpy là np. Như đã nói ở chương trước, pandas đã được nhập là pd cho bài này và phần còn lại của khóa học.

Hướng dẫn 1/3

undefined XP
  • 1
    • In ra tần suất tuyệt đối của từng giá trị duy nhất trong cột business_travel.
  • 2
    • In ra phân phối xác suất của biến business_travel (tức tần suất tương đối của mỗi hạng mục).
  • 3
    • Tạo biểu đồ cột để trực quan hóa tần suất tuyệt đối của từng hạng mục trong business_travel bằng cách sử dụng kết quả từ .value_counts().