Penyamaran data dengan PCA
PCA untuk pseudo-anonimisasi banyak digunakan di kalangan perusahaan. Anda dapat menemukan banyak tantangan dan himpunan data di Kaggle yang disediakan setelah transformasi PCA.
Versi PCA dengan differential privacy juga disertakan dalam diffprivlib pada modul models. Versi ini berbasis kelas PCA dari sklearn tetapi menambahkan argumen opsional untuk epsilon serta batas minimum dan maksimum, seperti yang telah kita lihat di bab sebelumnya.
Dalam latihan ini, Anda akan menerapkan penyamaran data dengan PCA pada himpunan data Gaji NBA, yang sudah dimuat sebagai players.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Impor
PCAdarisklearn. - Inisialisasi
PCA()dengan jumlah komponen sama dengan jumlah kolom. - Terapkan
pcapadaplayers. - Lihat himpunan data hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import PCA from Scikit-learn
____
# Initialize PCA with number of components to be the same as the number of columns
pca = ____
# Apply PCA to the data
players_pca = ____
# Print the resulting dataset
print(pd.DataFrame(players_pca))