1. Учиться
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

Exercise

一貫性のある合成データセット

企業が合成データを使う代表的な場面のひとつが、人工知能やMachine Learningモデルの学習です。実世界のデータは収集にコストがかかったり、そもそも入手が難しいことがあります。学習用データに強いクラス不均衡(例:90%以上が同一クラス)がある場合、合成データの生成は精度の高いMachine Learningモデルの構築に役立ちます。

この演習では、Faker を使ってモバイルアプリの評価データセットを生成します。

初期のDataFrameは ratings として読み込まれており、rating と gender の2列があります。Faker() のジェネレーターは fake_data としてすでに初期化されています。

Инструкции 1 / 3

undefined XP
    1
    2
    3
  • ratings DataFrame に、gender 列に対応するユニークな名前を含む name 列を作成してください。