1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

データの分布を探る

とても現実的な方法でサンプリングしてデータセットを匿名化したい場合は、そのデータに関するドメイン知識と統計的な知識が必要です。見てきたように、関心のある列の確率分布を把握することが重要です。

この演習では、IBM HR データセットの簡略版から列 business_travel を調べます。

DataFrame は hr、numpy は np としてインポート済みです。前の章で説明したとおり、この章およびコース全体で pandas は pd としてインポートされています。

指示1 / 3

undefined XP
  • 1
    • business_travel 列に含まれる各ユニーク値の絶対度数を出力してください。
  • 2
    • business_travel 変数の確率分布(各カテゴリの相対度数)を出力してください。
  • 3
    • .value_counts() の結果を使って、business_travel の各カテゴリの絶対度数を可視化する棒グラフを生成してください。