MulaiMulai sekarang secara gratis

Menyiapkan data karyawan untuk rilis yang aman

Saat Anda menangani data nyata, Anda harus memastikan tidak ada cara untuk melacak atau mengekspos informasi pribadi pelanggan atau orang lain. Pada latihan ini, Anda akan menggunakan versi sederhana dari himpunan data IBM HR Analytics Employee untuk berlatih teknik penekanan (suppression) dan generalisasi.

Untuk menghindari kebocoran informasi tentang himpunan data, Anda akan mengganti nama kolom dengan angka.

DataFrame dimuat sebagai hr, gunakan konsol untuk mengeksplorasinya. numpy diimpor sebagai np.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1) 

# Drop the rows with NaN values
df_cleaned = ____
Edit dan Jalankan Kode