Pengambilan sampel dari distribusi kontinu terbaik
Pengambilan sampel acak dari distribusi peluang yang cocok membantu menjaga privasi. Pada saat yang sama, ini memungkinkan pihak berwenang melakukan analisis statistik yang akurat terhadap data.
Pada latihan ini, Anda akan menganonimkan kolom monthly_income dari himpunan data IBM. Pada pelajaran sebelumnya, Anda menentukan bahwa distribusi kontinu exponnorm merupakan kecocokan terbaik. Gunakan itu untuk memodelkan pendapatan.
Himpunan data tersedia sebagai hr.
Latihan ini merupakan bagian dari kursus
Privasi Data dan Anonimisasi di Python
Instruksi latihan
- Impor modul
statsdari paketscipy. - Sesuaikan (fit) distribusi
exponnormke variabel kontinumonthly_incomeuntuk memperoleh parameter distribusi dan nantinya menghasilkan sampel. - Ambil sampel dari distribusi
exponnormdan gantikanmonthly_incomemenggunakan metode.rvs(). Tentukan ukuran (size) sama dengan panjang kolom tersebut. - Bulatkan gaji ke bilangan bulat terdekat.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import stats from scipy
____
# Fit the exponnorm distribution to the continuous variable monthly income
params = ____
# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____
# Round the salaries to their closest integer
hr['monthly_income'] = ____
# See the resulting dataset
print(hr.head())