Pra-pemrosesan data

Pra-pemrosesan untuk pengelompokan dapat menjadi cara menyiapkan data agar segmentasi lebih akurat. Salah satu jenis pra-pemrosesan adalah penskalaan fitur, teknik untuk menstandarkan fitur independen dalam data agar sesuai dengan rentang tetap, misalnya 0–1 atau 0–100.

Dalam latihan ini, Anda akan melakukan pengelompokan pada kolom parental_level_of_education dan writing_score dalam himpunan data kinerja siswa yang dimuat sebagai performance. Pertama, Anda akan membuat dan menjalankan model k-means tanpa pra-pemrosesan data apa pun. Lalu, lakukan hal yang sama tetapi dengan melakukan pra-pemrosesan data menggunakan penskalaan fitur.

Model k-means privat telah diimpor sebagai KMeans dari diffprivlib.models. Skaler StandardScaler dan reduksi dimensi PCA telah diimpor dari sklearn.

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Build the differentially private k-means model
model = KMeans(____)

# Fit the model to the data
____

# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Bersiaplah untuk menerapkan teknik anonimisasi seperti penekanan data, masking, pembuatan data sintetis, dan generalisasi. Pada bab ini, Anda akan belajar membedakan antara informasi identitas pribadi (PII) yang sensitif dan tidak sensitif, quasi-identifier, serta dasar-dasar GDPR. Anda juga akan melihat contoh nyata tentang apa yang bisa terjadi jika praktik terbaik ini tidak diikuti.

Exercise 1: Apa yang bersifat privat, dan mengapa kita peduli?Exercise 2: Privasi adalah kekuatan Exercise 3: Apakah sensitif atau tidak sensitif?Exercise 4: Supresi atribut sensitif Exercise 5: Penyamaran data dan pembuatan data dengan Faker Exercise 6: Masking PII sensitif Exercise 7: Menghapus nama dengan faker Exercise 8: Anonimisasi dengan generalisasi data Exercise 9: Mengurangi risiko identifikasi dengan generalisasi Exercise 10: Agregasi data dan generalisasi data Exercise 11: Top dan bottom coding untuk gaji White House

Pelajari cara menganonimkan data dengan melakukan sampling dari himpunan data yang mengikuti distribusi probabilitas kolom. Anda kemudian akan mempelajari cara menerapkan model privasi k-anonymity untuk mencegah serangan pengaitan atau re-identifikasi dan menggunakan hierarki untuk melakukan generalisasi data pada variabel kategorikal.

Exercise 1: Menganonimkan data kategorikal Exercise 2: Jelajahi distribusi data Exercise 3: Sampling dari distribusi probabilitas yang sama Exercise 4: Anonimisasi data kontinu Exercise 5: Sebaran yang berbeda Exercise 6: Pengambilan sampel dari distribusi kontinu terbaik Exercise 7: Pengenalan K-anonymity Exercise 8: Atribut privasi Exercise 9: Generalisasi menjadi rentang Exercise 10: Menggeneralisasi data menggunakan hierarki Exercise 11: Menggunakan hierarki untuk data kategorikal Exercise 12: Menerapkan k-anonymity pada himpunan data

Pelajari differential privacy, model yang digunakan oleh perusahaan teknologi besar seperti Apple, Google, dan Uber. Pada bab ini, Anda akan mengeksplorasi data dengan membuat histogram privat dan menghitung rata-rata privat pada data. Anda juga akan membuat model Machine Learning yang berbedaial secara privat yang memungkinkan bisnis meningkatkan utilitas data mereka.

Exercise 1: Pengantar differential privacy Exercise 2: Epsilon (ϵ): angka ajaib Exercise 3: Histogram dengan differential privacy Exercise 4: Anggaran privasi Exercise 5: Menggunakan privacy budget Exercise 6: Saat tidak ada anggaran tersisa Exercise 7: Menjelajah data dengan privacy budget accountant Exercise 8: Model Machine Learning dengan differential privacy Exercise 9: Membangun classifier yang differentially private Exercise 10: Memprediksi gaji Exercise 11: Model klastering dengan differential privacy Exercise 12: Pra-pemrosesan data

Latihan Saat Ini

Exercise 13: Segmentasi pelanggan

Pada bab terakhir ini, Anda akan mempelajari cara menerapkan metode reduksi dimensi seperti principal component analysis (PCA) untuk menganonimkan himpunan data besar dengan banyak kolom. Anda kemudian akan menggunakan Faker untuk menghasilkan himpunan data yang realistis dan konsisten, serta scikit-learn untuk membuat himpunan data sintetis yang mengikuti distribusi normal. Terakhir, Anda akan menggabungkan semua yang dipelajari dalam kursus ini dengan memadukan berbagai teknik untuk merilis himpunan data ke publik secara aman.

Exercise 1: PCA untuk anonimisasi Exercise 2: Anonimisasi data berdimensi tinggi Exercise 3: Penyamaran data dengan PCA Exercise 4: Membuat himpunan data realistis dengan Faker Exercise 5: Himpunan data sintetis yang konsisten Exercise 6: Himpunan data dengan distribusi probabilistik yang sama Exercise 7: Membuat himpunan data sintetis menggunakan scikit-learn Exercise 8: Menghasilkan himpunan data untuk klasifikasi Exercise 9: Menghasilkan himpunan data untuk pengelompokan Exercise 10: Merilis himpunan data ke publik secara aman Exercise 11: Mengeksplorasi dan membuat pseudonim pada himpunan data Exercise 12: Menyiapkan data karyawan untuk rilis yang aman Exercise 13: Kerja bagus!