MulaiMulai sekarang secara gratis

Jelajahi distribusi data

Saat kita ingin menganonimkan sebuah himpunan data dengan melakukan sampling data secara sangat realistis, kita perlu memahami domain dan pengetahuan statistik dari data tersebut. Seperti yang sudah Anda lihat, menemukan sebaran probabilitas dari kolom yang diminati adalah kuncinya.

Pada latihan ini, Anda akan mengeksplorasi kolom business_travel dari versi sederhana himpunan data IBM HR.

DataFrame telah diimpor sebagai hr dan numpy sebagai np. Seperti disebutkan pada bab sebelumnya, pandas telah diimpor sebagai pd untuk latihan ini dan seluruh kursus.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Print the absolute frequencies of each unique value
print(____)
Edit dan Jalankan Kode