Sampling dari distribusi probabilitas yang sama
Banyak organisasi, seperti U.S. Census, merilis sampel data yang mereka kumpulkan tentang warga secara publik. Himpunan data ini terlebih dahulu dianonimkan menggunakan berbagai teknik, lalu sebagian kecil (sekitar 1% hingga 5%) dari sampel dirilis untuk memungkinkan perhitungan. Teknik sampling diketahui dapat mempertahankan karakteristik statistik data, sehingga orang dapat mempelajari dan memahami populasi yang mendasarinya.
Dalam latihan ini, Anda akan menganonimkan kolom department dari himpunan data IBM HR dengan melakukan sampling berdasarkan distribusi pada himpunan data asli.
Himpunan data telah dimuat sebagai hr.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Dapatkan frekuensi relatif dari setiap nilai unik pada kolom
department. - Ekstrak probabilitas dari
countsdan simpan dalam variabel bernamadistributions. - Lakukan sampling dari distribusi probabilitas yang telah dihitung sebelumnya. Ukuran sampel harus sama dengan ukuran himpunan data
hr.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())