データの分布を探る

とても現実的な方法でサンプリングしてデータセットを匿名化したい場合は、そのデータに関するドメイン知識と統計的な知識が必要です。見てきたように、関心のある列の確率分布を把握することが重要です。

この演習では、IBM HR データセットの簡略版から列 business_travel を調べます。

DataFrame は hr、numpy は np としてインポート済みです。前の章で説明したとおり、この章およびコース全体で pandas は pd としてインポートされています。