1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

ホワイトハウスの給与におけるトップコーディングとボトムコーディング

トップコーディングとボトムコーディングは、外れ値を隠して特定のリスクを下げつつ、データの有用性を維持する方法です。

この演習では、2019年と2020年の米国ホワイトハウスの給与データを使います。salary 列に対してトップ/ボトムコーディングの手法を適用しましょう。

まずは給与を可視化して分布の中心に多くの値が集まっていることを確認します。そのうえで、探索結果に基づいて妥当なトップコード値とボトムコード値を選びます。

DataFrame は wh2020 として読み込まれています。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • salary 列の分布を確認するためにヒストグラムを作成します。ビンはデフォルト設定のままにします。