Menghasilkan himpunan data untuk pengelompokan

Data sintetis sepenuhnya legal dan memenuhi semua persyaratan undang-undang serta regulasi privasi di seluruh dunia. Ini adalah alternatif yang valid dan berorientasi privasi terhadap data mentah. Fungsi make_blobs() dapat digunakan untuk menghasilkan titik data dengan sebaran Gaussian (atau normal).

Dalam latihan ini, Anda akan menghasilkan sebuah himpunan data berisi 15000 sampel.

numpy telah diimpor sebagai np, dan fungsi kustom plot_data_points() telah disediakan kembali untuk latihan ini.

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

Instruksi latihan

Impor fungsi yang sesuai dari modul datasets untuk menghasilkan himpunan data pengelompokan.
Hasilkan himpunan data berisi 15000 sampel dengan 2 fitur, 2 pusat, dan simpangan baku klaster sebesar 3.
Cetak bentuk (shape) data yang dihasilkan.
Periksa titik data yang dihasilkan dalam plot sebar 2 dimensi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Bersiaplah untuk menerapkan teknik anonimisasi seperti penekanan data, masking, pembuatan data sintetis, dan generalisasi. Pada bab ini, Anda akan belajar membedakan antara informasi identitas pribadi (PII) yang sensitif dan tidak sensitif, quasi-identifier, serta dasar-dasar GDPR. Anda juga akan melihat contoh nyata tentang apa yang bisa terjadi jika praktik terbaik ini tidak diikuti.

Exercise 1: Apa yang bersifat privat, dan mengapa kita peduli?Exercise 2: Privasi adalah kekuatan Exercise 3: Apakah sensitif atau tidak sensitif?Exercise 4: Supresi atribut sensitif Exercise 5: Penyamaran data dan pembuatan data dengan Faker Exercise 6: Masking PII sensitif Exercise 7: Menghapus nama dengan faker Exercise 8: Anonimisasi dengan generalisasi data Exercise 9: Mengurangi risiko identifikasi dengan generalisasi Exercise 10: Agregasi data dan generalisasi data Exercise 11: Top dan bottom coding untuk gaji White House

Pelajari cara menganonimkan data dengan melakukan sampling dari himpunan data yang mengikuti distribusi probabilitas kolom. Anda kemudian akan mempelajari cara menerapkan model privasi k-anonymity untuk mencegah serangan pengaitan atau re-identifikasi dan menggunakan hierarki untuk melakukan generalisasi data pada variabel kategorikal.

Exercise 1: Menganonimkan data kategorikal Exercise 2: Jelajahi distribusi data Exercise 3: Sampling dari distribusi probabilitas yang sama Exercise 4: Anonimisasi data kontinu Exercise 5: Sebaran yang berbeda Exercise 6: Pengambilan sampel dari distribusi kontinu terbaik Exercise 7: Pengenalan K-anonymity Exercise 8: Atribut privasi Exercise 9: Generalisasi menjadi rentang Exercise 10: Menggeneralisasi data menggunakan hierarki Exercise 11: Menggunakan hierarki untuk data kategorikal Exercise 12: Menerapkan k-anonymity pada himpunan data

Pelajari differential privacy, model yang digunakan oleh perusahaan teknologi besar seperti Apple, Google, dan Uber. Pada bab ini, Anda akan mengeksplorasi data dengan membuat histogram privat dan menghitung rata-rata privat pada data. Anda juga akan membuat model Machine Learning yang berbedaial secara privat yang memungkinkan bisnis meningkatkan utilitas data mereka.

Exercise 1: Pengantar differential privacy Exercise 2: Epsilon (ϵ): angka ajaib Exercise 3: Histogram dengan differential privacy Exercise 4: Anggaran privasi Exercise 5: Menggunakan privacy budget Exercise 6: Saat tidak ada anggaran tersisa Exercise 7: Menjelajah data dengan privacy budget accountant Exercise 8: Model Machine Learning dengan differential privacy Exercise 9: Membangun classifier yang differentially private Exercise 10: Memprediksi gaji Exercise 11: Model klastering dengan differential privacy Exercise 12: Pra-pemrosesan data Exercise 13: Segmentasi pelanggan

Pada bab terakhir ini, Anda akan mempelajari cara menerapkan metode reduksi dimensi seperti principal component analysis (PCA) untuk menganonimkan himpunan data besar dengan banyak kolom. Anda kemudian akan menggunakan Faker untuk menghasilkan himpunan data yang realistis dan konsisten, serta scikit-learn untuk membuat himpunan data sintetis yang mengikuti distribusi normal. Terakhir, Anda akan menggabungkan semua yang dipelajari dalam kursus ini dengan memadukan berbagai teknik untuk merilis himpunan data ke publik secara aman.

Exercise 1: PCA untuk anonimisasi Exercise 2: Anonimisasi data berdimensi tinggi Exercise 3: Penyamaran data dengan PCA Exercise 4: Membuat himpunan data realistis dengan Faker Exercise 5: Himpunan data sintetis yang konsisten Exercise 6: Himpunan data dengan distribusi probabilistik yang sama Exercise 7: Membuat himpunan data sintetis menggunakan scikit-learn Exercise 8: Menghasilkan himpunan data untuk klasifikasi Exercise 9: Menghasilkan himpunan data untuk pengelompokan

Latihan Saat Ini

Exercise 10: Merilis himpunan data ke publik secara aman Exercise 11: Mengeksplorasi dan membuat pseudonim pada himpunan data Exercise 12: Menyiapkan data karyawan untuk rilis yang aman Exercise 13: Kerja bagus!