1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

プライバシーバジェットアカウンタでデータを探索する

差分プライバシーを提供するデータ探索システムでは、複数のクエリにわたって失われるプライバシー量を測るプライバシーバジェットを管理する必要があります。

この演習では、プライバシーバジェットを追跡しながら IBM HR Analytics Employee Attrition & Performance データセットを探索します。アカウンタで指定したプライバシーバジェットをクエリが超えるとエラーになることを覚えておいてください。

ヒストグラムは、差分プライベートにデータを可視化するのに有用なツールです。構文は numpy の対応する関数と同じで、epsilon パラメータを追加で指定します。

完全なデータセットは hr として、従業員の年齢属性は ages として利用できます。コース内で以前と同様にヒストグラムを描画できるよう、カスタム関数 show_histogram() が作成され読み込まれています。

指示

100 XP
  • コンストラクタを使って、epsilon を 1.5 に設定したプライバシー用の BudgetAccountant を作成します。
  • ages 列から、epsilon を 0.1 にしてプライベートなヒストグラムを生成します。
  • ages のプライベートな平均を、epsilon を 0.9、bounds をタプルで 10 から 100 に設定して取得・表示します。
  • 続く2つの新しいクエリに対して、残りのプライバシーバジェットを出力します。