Menyiapkan data karyawan untuk rilis yang aman
Saat Anda menangani data nyata, Anda harus memastikan tidak ada cara untuk melacak atau mengekspos informasi pribadi pelanggan atau orang lain. Pada latihan ini, Anda akan menggunakan versi sederhana dari himpunan data IBM HR Analytics Employee untuk berlatih teknik penekanan (suppression) dan generalisasi.
Untuk menghindari kebocoran informasi tentang himpunan data, Anda akan mengganti nama kolom dengan angka.
DataFrame dimuat sebagai hr, gunakan konsol untuk mengeksplorasinya. numpy diimpor sebagai np.
Latihan ini merupakan bagian dari kursus
Privasi Data dan Anonimisasi di Python
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1)
# Drop the rows with NaN values
df_cleaned = ____