Mulai sekarangMulai gratis

Penyamaran data dengan PCA

PCA untuk pseudo-anonimisasi banyak digunakan di kalangan perusahaan. Anda dapat menemukan banyak tantangan dan himpunan data di Kaggle yang disediakan setelah transformasi PCA.

Versi PCA dengan differential privacy juga disertakan dalam diffprivlib pada modul models. Versi ini berbasis kelas PCA dari sklearn tetapi menambahkan argumen opsional untuk epsilon serta batas minimum dan maksimum, seperti yang telah kita lihat di bab sebelumnya.

Dalam latihan ini, Anda akan menerapkan penyamaran data dengan PCA pada himpunan data Gaji NBA, yang sudah dimuat sebagai players.

Latihan ini merupakan bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Instruksi latihan

  • Impor PCA dari sklearn.
  • Inisialisasi PCA() dengan jumlah komponen sama dengan jumlah kolom.
  • Terapkan pca pada players.
  • Lihat himpunan data hasilnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import PCA from Scikit-learn
____

# Initialize PCA with number of components to be the same as the number of columns
pca = ____

# Apply PCA to the data
players_pca = ____

# Print the resulting dataset
print(pd.DataFrame(players_pca))
Edit dan Jalankan Kode