同じ確率分布を持つデータセット

合成データの目的は、できるだけ現実的でありながら、重要な個人情報を危険にさらさないデータセットを作ることです。たとえば、Deloitte Consulting のチームは、データを合成することで Machine Learning モデルの学習データの 80% を生成しました。結果として得られたモデルの精度は、実データで学習したモデルと同程度でした。

この演習では、p として読み込まれた確率分布に従うように、Faker を使ってゼロから合成データセットを生成します。

Faker のジェネレーター fake_data はすでに初期化済みで、numpy は np としてインポートされています。