1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

同じ確率分布からのサンプリング

米国国勢調査のように、多くの組織は一般市民から収集したデータのサンプルを公開しています。これらのデータセットは、まずさまざまな手法で匿名化され、その後、計算ができるように全体の1%〜5%程度のごく一部だけが公開されます。サンプリングはデータの統計的特性を保つことが知られており、母集団の実態を分析・把握するのに役立ちます。

この演習では、IBM HR データセットの department 列を、元のデータセットの分布に基づいてサンプリングすることで匿名化します。

データセットは hr として読み込まれています。

指示

100 XP
  • department 列に含まれる各ユニーク値の相対度数を取得します。
  • counts から確率を取り出し、distributions という変数に保存します。
  • 先ほど計算した確率分布からサンプリングします。サンプルのサイズは hr データセットと同じにしてください。