Jelajahi distribusi data
Saat kita ingin menganonimkan sebuah himpunan data dengan melakukan sampling data secara sangat realistis, kita perlu memahami domain dan pengetahuan statistik dari data tersebut. Seperti yang sudah Anda lihat, menemukan sebaran probabilitas dari kolom yang diminati adalah kuncinya.
Pada latihan ini, Anda akan mengeksplorasi kolom business_travel dari versi sederhana himpunan data IBM HR.
DataFrame telah diimpor sebagai hr dan numpy sebagai np. Seperti disebutkan pada bab sebelumnya, pandas telah diimpor sebagai pd untuk latihan ini dan seluruh kursus.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the absolute frequencies of each unique value
print(____)