1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

安全に公開するための従業員データの準備

実データを扱うときは、顧客や第三者の個人情報が特定・露出されないよう、万全の対策が必要です。この演習では、IBM HR Analytics Employee データセットの簡略版を使って、抑制(suppression)と一般化(generalization)の手法を練習します。

データセットに関する情報漏えいを防ぐため、列名を番号に置き換えます。

DataFrame は hr として読み込まれています。コンソールで中身を確認してください。numpy は np としてインポート済みです。

指示1 / 3

undefined XP
    1
    2
    3
  • hr から一意な値をドロップします。
  • df_dropped から NaN をドロップして df_cleaned を作成します。