1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

同じ確率分布を持つデータセット

合成データの目的は、できるだけ現実的でありながら、重要な個人情報を危険にさらさないデータセットを作ることです。たとえば、Deloitte Consulting のチームは、データを合成することで Machine Learning モデルの学習データの 80% を生成しました。結果として得られたモデルの精度は、実データで学習したモデルと同程度でした。

この演習では、p として読み込まれた確率分布に従うように、Faker を使ってゼロから合成データセットを生成します。

Faker のジェネレーター fake_data はすでに初期化済みで、numpy は np としてインポートされています。

指示1 / 2

undefined XP
    1
    2
  • リスト内包表記を使って、元の都市名を置き換えるためのランダムな都市名を 5 件、cities として生成します。