データセットのk匿名化

この演習では、NBA Salariesデータセットを匿名化します。k匿名化を適用するには、属性タイプを指定する必要があります。属性タイプには、識別子、準識別子、機微情報、非機微情報があります。ここでは、age と nba_origin を準識別子、salary を機微情報として扱います。

nba を確認してみましょう。たとえば、ある選手がスペイン出身で23歳だと知っていれば、その選手の給与のような機微情報を推測できてしまいます。ここではK値を3に設定し、選んだ属性が少なくともk-1行の他のレコードと区別できないようにします。

nba_Origin のための階層辞書は、すでに origin_hierarchy として用意されています。