1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

データセットのk匿名化

この演習では、NBA Salariesデータセットを匿名化します。k匿名化を適用するには、属性タイプを指定する必要があります。属性タイプには、識別子、準識別子、機微情報、非機微情報があります。ここでは、age と nba_origin を準識別子、salary を機微情報として扱います。

nba を確認してみましょう。たとえば、ある選手がスペイン出身で23歳だと知っていれば、その選手の給与のような機微情報を推測できてしまいます。ここではK値を3に設定し、選んだ属性が少なくともk-1行の他のレコードと区別できないようにします。

nba_Origin のための階層辞書は、すでに origin_hierarchy として用意されています。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • age と nba_origin でグループ化し、データセット内のユニークな組み合わせ数を表示します。新しい列名は count としてください。