MulaiMulai sekarang secara gratis

Mengurangi risiko identifikasi dengan generalisasi

Dalam latihan ini, Anda akan menerapkan generalisasi pada himpunan data IBM HR Analytics Employee Attrition & Performance.

Secara lebih spesifik, Anda akan mengubah variabel monthly_income menjadi kolom biner. Ambang yang digunakan untuk transformasi adalah nilai rata-rata gaji yang dibulatkan ke atas. Nilai baru akan 0 untuk yang kurang dari atau sama dengan rata-rata bilangan bulat tersebut, dan 1 untuk yang lebih besar.

Himpunan data telah dimuat sebagai DataFrame pandas bernama hr.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Petunjuk latihan

  • Hitung nilai rata-rata kolom monthly_income menggunakan .mean() dan bulatkan menjadi bilangan bulat. Simpan sebagai mean_income.
  • Terapkan fungsi lambda ke hr['monthly_income'] untuk menggeneralisasi pendapatan menjadi 0 untuk nilai yang kurang dari atau sama dengan mean_income, dan 1 untuk nilai yang lebih besar.
  • Telusuri lima baris pertama dari DataFrame hr yang dihasilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Edit dan Jalankan Kode