1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Mascarea datelor cu PCA

PCA pentru pseudo-anonimizare este utilizat pe scară largă de numeroase companii. Poți găsi multiple competiții și seturi de date pe Kaggle unde datele sunt furnizate după transformări PCA.

O versiune a PCA cu confidențialitate diferențială este inclusă și în diffprivlib, în modulul models. Se bazează pe clasa PCA din sklearn, adăugând argumente opționale pentru epsilon și limitele minime și maxime — la fel cum am văzut în capitolul anterior.

În acest exercițiu, vei aplica mascarea datelor cu PCA pe setul de date NBA Salaries, deja încărcat sub numele players.

Instrucțiuni

100 XP
  • Importă PCA din sklearn.
  • Inițializează PCA() cu numărul de componente egal cu numărul de coloane.
  • Aplică pca pe players.
  • Observă setul de date rezultat.