Sampling dari distribusi probabilitas yang sama

Banyak organisasi, seperti U.S. Census, merilis sampel data yang mereka kumpulkan tentang warga secara publik. Himpunan data ini terlebih dahulu dianonimkan menggunakan berbagai teknik, lalu sebagian kecil (sekitar 1% hingga 5%) dari sampel dirilis untuk memungkinkan perhitungan. Teknik sampling diketahui dapat mempertahankan karakteristik statistik data, sehingga orang dapat mempelajari dan memahami populasi yang mendasarinya.

Dalam latihan ini, Anda akan menganonimkan kolom department dari himpunan data IBM HR dengan melakukan sampling berdasarkan distribusi pada himpunan data asli.

Himpunan data telah dimuat sebagai hr.

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

Instruksi latihan

Dapatkan frekuensi relatif dari setiap nilai unik pada kolom department.
Ekstrak probabilitas dari counts dan simpan dalam variabel bernama distributions.
Lakukan sampling dari distribusi probabilitas yang telah dihitung sebelumnya. Ukuran sampel harus sama dengan ukuran himpunan data hr.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Bersiaplah untuk menerapkan teknik anonimisasi seperti penekanan data, masking, pembuatan data sintetis, dan generalisasi. Pada bab ini, Anda akan belajar membedakan antara informasi identitas pribadi (PII) yang sensitif dan tidak sensitif, quasi-identifier, serta dasar-dasar GDPR. Anda juga akan melihat contoh nyata tentang apa yang bisa terjadi jika praktik terbaik ini tidak diikuti.

Exercise 1: Apa yang bersifat privat, dan mengapa kita peduli?Exercise 2: Privasi adalah kekuatan Exercise 3: Apakah sensitif atau tidak sensitif?Exercise 4: Supresi atribut sensitif Exercise 5: Penyamaran data dan pembuatan data dengan Faker Exercise 6: Masking PII sensitif Exercise 7: Menghapus nama dengan faker Exercise 8: Anonimisasi dengan generalisasi data Exercise 9: Mengurangi risiko identifikasi dengan generalisasi Exercise 10: Agregasi data dan generalisasi data Exercise 11: Top dan bottom coding untuk gaji White House

Pelajari cara menganonimkan data dengan melakukan sampling dari himpunan data yang mengikuti distribusi probabilitas kolom. Anda kemudian akan mempelajari cara menerapkan model privasi k-anonymity untuk mencegah serangan pengaitan atau re-identifikasi dan menggunakan hierarki untuk melakukan generalisasi data pada variabel kategorikal.

Exercise 1: Menganonimkan data kategorikal Exercise 2: Jelajahi distribusi data Exercise 3: Sampling dari distribusi probabilitas yang sama

Latihan Saat Ini

Exercise 4: Anonimisasi data kontinu Exercise 5: Sebaran yang berbeda Exercise 6: Pengambilan sampel dari distribusi kontinu terbaik Exercise 7: Pengenalan K-anonymity Exercise 8: Atribut privasi Exercise 9: Generalisasi menjadi rentang Exercise 10: Menggeneralisasi data menggunakan hierarki Exercise 11: Menggunakan hierarki untuk data kategorikal Exercise 12: Menerapkan k-anonymity pada himpunan data

Pelajari differential privacy, model yang digunakan oleh perusahaan teknologi besar seperti Apple, Google, dan Uber. Pada bab ini, Anda akan mengeksplorasi data dengan membuat histogram privat dan menghitung rata-rata privat pada data. Anda juga akan membuat model Machine Learning yang berbedaial secara privat yang memungkinkan bisnis meningkatkan utilitas data mereka.

Exercise 1: Pengantar differential privacy Exercise 2: Epsilon (ϵ): angka ajaib Exercise 3: Histogram dengan differential privacy Exercise 4: Anggaran privasi Exercise 5: Menggunakan privacy budget Exercise 6: Saat tidak ada anggaran tersisa Exercise 7: Menjelajah data dengan privacy budget accountant Exercise 8: Model Machine Learning dengan differential privacy Exercise 9: Membangun classifier yang differentially private Exercise 10: Memprediksi gaji Exercise 11: Model klastering dengan differential privacy Exercise 12: Pra-pemrosesan data Exercise 13: Segmentasi pelanggan

Pada bab terakhir ini, Anda akan mempelajari cara menerapkan metode reduksi dimensi seperti principal component analysis (PCA) untuk menganonimkan himpunan data besar dengan banyak kolom. Anda kemudian akan menggunakan Faker untuk menghasilkan himpunan data yang realistis dan konsisten, serta scikit-learn untuk membuat himpunan data sintetis yang mengikuti distribusi normal. Terakhir, Anda akan menggabungkan semua yang dipelajari dalam kursus ini dengan memadukan berbagai teknik untuk merilis himpunan data ke publik secara aman.

Exercise 1: PCA untuk anonimisasi Exercise 2: Anonimisasi data berdimensi tinggi Exercise 3: Penyamaran data dengan PCA Exercise 4: Membuat himpunan data realistis dengan Faker Exercise 5: Himpunan data sintetis yang konsisten Exercise 6: Himpunan data dengan distribusi probabilistik yang sama Exercise 7: Membuat himpunan data sintetis menggunakan scikit-learn Exercise 8: Menghasilkan himpunan data untuk klasifikasi Exercise 9: Menghasilkan himpunan data untuk pengelompokan Exercise 10: Merilis himpunan data ke publik secara aman Exercise 11: Mengeksplorasi dan membuat pseudonim pada himpunan data Exercise 12: Menyiapkan data karyawan untuk rilis yang aman Exercise 13: Kerja bagus!