1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Maskování dat pomocí PCA

PCA pro pseudoanonymizaci je ve firmách hojně využívaná metoda. Na Kaggle najdeš celou řadu výzev a datových sad, kde jsou data poskytnutá po PCA transformaci.

Diferenciálně soukromá verze PCA je také součástí knihovny diffprivlib v modulu models. Vychází z třídy PCA ze sklearn, ale navíc podporuje volitelné argumenty pro epsilon a minimální a maximální hranice – stejně jako jsme viděli v předchozí kapitole.

V tomto cvičení použiješ maskování dat pomocí PCA na datové sadě NBA Salaries, která je už načtena jako players.

Pokyny

100 XP
  • Importuj PCA z knihovny sklearn.
  • Inicializuj PCA() tak, aby počet komponent odpovídal počtu sloupců.
  • Aplikuj pca na players.
  • Prohlédni si výslednou datovou sadu.