Mengurangi risiko identifikasi dengan generalisasi
Dalam latihan ini, Anda akan menerapkan generalisasi pada himpunan data IBM HR Analytics Employee Attrition & Performance.
Secara lebih spesifik, Anda akan mengubah variabel monthly_income menjadi kolom biner. Ambang yang digunakan untuk transformasi adalah nilai rata-rata gaji yang dibulatkan ke atas. Nilai baru akan 0 untuk yang kurang dari atau sama dengan rata-rata bilangan bulat tersebut, dan 1 untuk yang lebih besar.
Himpunan data telah dimuat sebagai DataFrame pandas bernama hr.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Hitung nilai rata-rata kolom
monthly_incomemenggunakan.mean()dan bulatkan menjadi bilangan bulat. Simpan sebagaimean_income. - Terapkan fungsi
lambdakehr['monthly_income']untuk menggeneralisasi pendapatan menjadi 0 untuk nilai yang kurang dari atau sama denganmean_income, dan 1 untuk nilai yang lebih besar. - Telusuri lima baris pertama dari DataFrame
hryang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)