MulaiMulai sekarang secara gratis

Sampling dari distribusi probabilitas yang sama

Banyak organisasi, seperti U.S. Census, merilis sampel data yang mereka kumpulkan tentang warga secara publik. Himpunan data ini terlebih dahulu dianonimkan menggunakan berbagai teknik, lalu sebagian kecil (sekitar 1% hingga 5%) dari sampel dirilis untuk memungkinkan perhitungan. Teknik sampling diketahui dapat mempertahankan karakteristik statistik data, sehingga orang dapat mempelajari dan memahami populasi yang mendasarinya.

Dalam latihan ini, Anda akan menganonimkan kolom department dari himpunan data IBM HR dengan melakukan sampling berdasarkan distribusi pada himpunan data asli.

Himpunan data telah dimuat sebagai hr.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Petunjuk latihan

  • Dapatkan frekuensi relatif dari setiap nilai unik pada kolom department.
  • Ekstrak probabilitas dari counts dan simpan dalam variabel bernama distributions.
  • Lakukan sampling dari distribusi probabilitas yang telah dihitung sebelumnya. Ukuran sampel harus sama dengan ukuran himpunan data hr.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())
Edit dan Jalankan Kode