MulaiMulai sekarang secara gratis

Pengambilan sampel dari distribusi kontinu terbaik

Pengambilan sampel acak dari distribusi peluang yang cocok membantu menjaga privasi. Pada saat yang sama, ini memungkinkan pihak berwenang melakukan analisis statistik yang akurat terhadap data.

Pada latihan ini, Anda akan menganonimkan kolom monthly_income dari himpunan data IBM. Pada pelajaran sebelumnya, Anda menentukan bahwa distribusi kontinu exponnorm merupakan kecocokan terbaik. Gunakan itu untuk memodelkan pendapatan.

Himpunan data tersedia sebagai hr.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Petunjuk latihan

  • Impor modul stats dari paket scipy.
  • Sesuaikan (fit) distribusi exponnorm ke variabel kontinu monthly_income untuk memperoleh parameter distribusi dan nantinya menghasilkan sampel.
  • Ambil sampel dari distribusi exponnorm dan gantikan monthly_income menggunakan metode .rvs(). Tentukan ukuran (size) sama dengan panjang kolom tersebut.
  • Bulatkan gaji ke bilangan bulat terdekat.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import stats from scipy
____

# Fit the exponnorm distribution to the continuous variable monthly income
params = ____

# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____

# Round the salaries to their closest integer
hr['monthly_income'] = ____

# See the resulting dataset
print(hr.head())
Edit dan Jalankan Kode