Himpunan data dengan distribusi probabilistik yang sama

Tujuan data sintetis adalah membuat himpunan data yang sedekat mungkin dengan data nyata, tanpa membahayakan informasi pribadi yang penting. Misalnya, sebuah tim di Deloitte Consulting menghasilkan 80% data pelatihan untuk sebuah model machine learning dengan menyintesis data. Akurasi model yang dihasilkan serupa dengan model yang dilatih pada data asli.

Dalam latihan ini, Anda akan menghasilkan himpunan data sintetis dari nol menggunakan Faker yang mengikuti distribusi probabilistik yang dimuat sebagai p.

Generator Faker bernama fake_data sudah diinisialisasi dan numpy telah diimpor sebagai np.

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Bersiaplah untuk menerapkan teknik anonimisasi seperti penekanan data, masking, pembuatan data sintetis, dan generalisasi. Pada bab ini, Anda akan belajar membedakan antara informasi identitas pribadi (PII) yang sensitif dan tidak sensitif, quasi-identifier, serta dasar-dasar GDPR. Anda juga akan melihat contoh nyata tentang apa yang bisa terjadi jika praktik terbaik ini tidak diikuti.

Exercise 1: Apa yang bersifat privat, dan mengapa kita peduli?Exercise 2: Privasi adalah kekuatan Exercise 3: Apakah sensitif atau tidak sensitif?Exercise 4: Supresi atribut sensitif Exercise 5: Penyamaran data dan pembuatan data dengan Faker Exercise 6: Masking PII sensitif Exercise 7: Menghapus nama dengan faker Exercise 8: Anonimisasi dengan generalisasi data Exercise 9: Mengurangi risiko identifikasi dengan generalisasi Exercise 10: Agregasi data dan generalisasi data Exercise 11: Top dan bottom coding untuk gaji White House

Pelajari cara menganonimkan data dengan melakukan sampling dari himpunan data yang mengikuti distribusi probabilitas kolom. Anda kemudian akan mempelajari cara menerapkan model privasi k-anonymity untuk mencegah serangan pengaitan atau re-identifikasi dan menggunakan hierarki untuk melakukan generalisasi data pada variabel kategorikal.

Exercise 1: Menganonimkan data kategorikal Exercise 2: Jelajahi distribusi data Exercise 3: Sampling dari distribusi probabilitas yang sama Exercise 4: Anonimisasi data kontinu Exercise 5: Sebaran yang berbeda Exercise 6: Pengambilan sampel dari distribusi kontinu terbaik Exercise 7: Pengenalan K-anonymity Exercise 8: Atribut privasi Exercise 9: Generalisasi menjadi rentang Exercise 10: Menggeneralisasi data menggunakan hierarki Exercise 11: Menggunakan hierarki untuk data kategorikal Exercise 12: Menerapkan k-anonymity pada himpunan data

Pelajari differential privacy, model yang digunakan oleh perusahaan teknologi besar seperti Apple, Google, dan Uber. Pada bab ini, Anda akan mengeksplorasi data dengan membuat histogram privat dan menghitung rata-rata privat pada data. Anda juga akan membuat model Machine Learning yang berbedaial secara privat yang memungkinkan bisnis meningkatkan utilitas data mereka.

Exercise 1: Pengantar differential privacy Exercise 2: Epsilon (ϵ): angka ajaib Exercise 3: Histogram dengan differential privacy Exercise 4: Anggaran privasi Exercise 5: Menggunakan privacy budget Exercise 6: Saat tidak ada anggaran tersisa Exercise 7: Menjelajah data dengan privacy budget accountant Exercise 8: Model Machine Learning dengan differential privacy Exercise 9: Membangun classifier yang differentially private Exercise 10: Memprediksi gaji Exercise 11: Model klastering dengan differential privacy Exercise 12: Pra-pemrosesan data Exercise 13: Segmentasi pelanggan

Pada bab terakhir ini, Anda akan mempelajari cara menerapkan metode reduksi dimensi seperti principal component analysis (PCA) untuk menganonimkan himpunan data besar dengan banyak kolom. Anda kemudian akan menggunakan Faker untuk menghasilkan himpunan data yang realistis dan konsisten, serta scikit-learn untuk membuat himpunan data sintetis yang mengikuti distribusi normal. Terakhir, Anda akan menggabungkan semua yang dipelajari dalam kursus ini dengan memadukan berbagai teknik untuk merilis himpunan data ke publik secara aman.

Exercise 1: PCA untuk anonimisasi Exercise 2: Anonimisasi data berdimensi tinggi Exercise 3: Penyamaran data dengan PCA Exercise 4: Membuat himpunan data realistis dengan Faker Exercise 5: Himpunan data sintetis yang konsisten Exercise 6: Himpunan data dengan distribusi probabilistik yang sama

Latihan Saat Ini

Exercise 7: Membuat himpunan data sintetis menggunakan scikit-learn Exercise 8: Menghasilkan himpunan data untuk klasifikasi Exercise 9: Menghasilkan himpunan data untuk pengelompokan Exercise 10: Merilis himpunan data ke publik secara aman Exercise 11: Mengeksplorasi dan membuat pseudonim pada himpunan data Exercise 12: Menyiapkan data karyawan untuk rilis yang aman Exercise 13: Kerja bagus!