Pengambilan sampel dari distribusi kontinu terbaik
Pengambilan sampel acak dari distribusi peluang yang cocok membantu menjaga privasi. Pada saat yang sama, ini memungkinkan pihak berwenang melakukan analisis statistik yang akurat terhadap data.
Pada latihan ini, Anda akan menganonimkan kolom monthly_income dari himpunan data IBM. Pada pelajaran sebelumnya, Anda menentukan bahwa distribusi kontinu exponnorm merupakan kecocokan terbaik. Gunakan itu untuk memodelkan pendapatan.
Himpunan data tersedia sebagai hr.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Impor modul
statsdari paketscipy. - Sesuaikan (fit) distribusi
exponnormke variabel kontinumonthly_incomeuntuk memperoleh parameter distribusi dan nantinya menghasilkan sampel. - Ambil sampel dari distribusi
exponnormdan gantikanmonthly_incomemenggunakan metode.rvs(). Tentukan ukuran (size) sama dengan panjang kolom tersebut. - Bulatkan gaji ke bilangan bulat terdekat.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import stats from scipy
____
# Fit the exponnorm distribution to the continuous variable monthly income
params = ____
# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____
# Round the salaries to their closest integer
hr['monthly_income'] = ____
# See the resulting dataset
print(hr.head())