1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Maskowanie danych za pomocą PCA

PCA do pseudoanonimizacji jest szeroko stosowane przez firmy. Na platformie Kaggle znajdziesz wiele zbiorów danych i wyzwań, w których dane są udostępniane po transformacji PCA.

Diferencjalnie prywatna wersja PCA jest również dostępna w bibliotece diffprivlib, w module models. Bazuje ona na klasie PCA z biblioteki sklearn, ale oferuje opcjonalne argumenty dla epsilona oraz dolnych i górnych granic – tak jak widziałeś w poprzednim rozdziale.

W tym ćwiczeniu zastosujesz maskowanie danych z użyciem PCA na zbiorze danych NBA Salaries, który jest już wczytany jako players.

Instrukcje

100 XP
  • Zaimportuj PCA z biblioteki sklearn.
  • Zainicjalizuj PCA(), ustawiając liczbę komponentów równą liczbie kolumn.
  • Zastosuj pca do zbioru players.
  • Sprawdź wynikowy zbiór danych.