1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

PCA によるデータマスキング

疑似匿名化のための PCA は企業で広く使われています。Kaggle でも、PCA で変換済みのデータが提供されているコンペやデータセットが多数あります。

PCA の差分プライバシー対応版は、diffprivlib の models モジュールにも含まれています。これは sklearn の PCA クラスをベースにしており、前章で見たように epsilon や最小・最大値の境界を指定するオプション引数が追加されています。

この演習では、すでに players として読み込まれている NBA Salaries データセットに対して、PCA を使ったデータマスキングを行います。

指示

100 XP
  • sklearn から PCA をインポートします。
  • コンポーネント数が列数と同じになるように PCA() を初期化します。
  • pca を players に適用します。
  • 得られたデータセットを確認します。