1. Învăţa
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

exercise

一般化で識別リスクを下げる

この演習では、IBM HR Analytics Employee Attrition & Performance データセットに一般化を適用します。

具体的には、monthly_income を2値の列に変換します。変換に使うしきい値は、給与の平均値を四捨五入して整数にしたものです。新しい値は、その整数の平均以下なら 0、より大きければ 1 とします。

データセットは pandas の DataFrame hr として読み込まれています。

Instrucţiuni

100 XP
  • .mean() を使って monthly_income 列の平均値を計算し、整数に丸めます。mean_income として保存してください。
  • hr['monthly_income'] に lambda 関数を適用し、mean_income 以下を 0、より大きい値を 1 になるように一般化してください。
  • 変換後の DataFrame hr の先頭5行を確認します。