1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

Exercise

最適な連続分布からのサンプリング

適合の良い確率分布からランダムサンプリングすることで、プライバシーを維持できます。同時に、権限のある関係者がデータの統計分析を正確に行えるようにもなります。

この演習では、IBM データセットの monthly_income 列を匿名化します。前のレッスンで、最も適合する連続分布が exponnorm であると判断しました。これを使って収入をモデル化しましょう。

データセットは hr として利用できます。

Instructions

100 XP
  • scipy パッケージから stats モジュールをインポートします。
  • 連続変数 monthly_income に exponnorm 分布をフィットさせ、分布のパラメータを取得して後でサンプルを生成します。
  • exponnorm 分布からサンプリングし、.rvs() メソッドを使って monthly_income を置き換えます。サイズは列の長さと同じに指定します。
  • 給与は最も近い整数に丸めます。