1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

カテゴリデータに階層を使う

この演習では、US Adult Income データセットの bachelors 列にデータの一般化を適用するため、階層を作成して使用します。

階層を含む初期の辞書 hierarchies が用意されています。教育の種類を Primary、Secondary、Higher の3カテゴリに分け、それぞれに対応する教育の値のリストが入っています。インタラクティブコンソールで自由に確認してみてください。

元の値を置き換えるため、一般化した教育情報を保持する新しい辞書を作成します。

データセットは income_df として利用できます。

指示

100 XP
  • education_hierarchy を空の辞書として初期化します。
  • 内側のループを完成させ、教育タイプの key を値として代入します。例: {'Some-college': 'Higher education'}。
  • 教育階層の一般化を bachelors 列に適用し、結果を新しい列 bachelors_generalized に代入します。