プライバシーバジェットアカウンタでデータを探索する

差分プライバシーを提供するデータ探索システムでは、複数のクエリにわたって失われるプライバシー量を測るプライバシーバジェットを管理する必要があります。

この演習では、プライバシーバジェットを追跡しながら IBM HR Analytics Employee Attrition & Performance データセットを探索します。アカウンタで指定したプライバシーバジェットをクエリが超えるとエラーになることを覚えておいてください。

ヒストグラムは、差分プライベートにデータを可視化するのに有用なツールです。構文は numpy の対応する関数と同じで、epsilon パラメータを追加で指定します。

完全なデータセットは hr として、従業員の年齢属性は ages として利用できます。コース内で以前と同様にヒストグラムを描画できるよう、カスタム関数 show_histogram() が作成され読み込まれています。

コンストラクタを使って、epsilon を 1.5 に設定したプライバシー用の BudgetAccountant を作成します。
ages 列から、epsilon を 0.1 にしてプライベートなヒストグラムを生成します。
ages のプライベートな平均を、epsilon を 0.9、bounds をタプルで 10 から 100 に設定して取得・表示します。
続く2つの新しいクエリに対して、残りのプライバシーバジェットを出力します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習