1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

Exercise

Differential Privacy対応の分類器を作る

この演習では、Penguinデータセットに対してプライベートな Gaussian Naive Bayes モデルを構築・学習し、ペンギンがオスかメスかを分類します。

K-anonymity は、理論的・実証的な大きな制約により、多次元かつ多様なデータセットではうまく機能しません。いわゆる「次元の呪い」により、特徴量や次元が増えるほど、正確に一般化するために必要なデータ量が指数関数的に増大します。これが、Differential Privacy が現在の推奨プライバシーモデルとされる理由の一つです。Epsilon はあらゆる事前知識から独立しており、機微情報を「境界付け」します。

DataFrame は penguin_df として読み込まれ、X_train、y_train、X_test、y_test に分割されています。プライベートモデルのクラスは dp_GaussianNB としてインポート済みです。

Instructions

100 XP
  • パラメータなしで dp_GaussianNB 分類器を作成します。
  • 作成したモデルを、パラメータを指定せずにデータへ学習させます。
  • テストデータに基づいてプライベートモデルのスコアを計算します。