1. 学ぶ
  2. /
  3. コース
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

演習

複数のデータソースでの多数決投票

あなたのチームは、スマートフォンの品質管理(QC)レポートを自動生成する AI モデルを開発しています。そのために、3 つの異なる品質管理ソース("Automated Vision System"、"Human Inspector"、"Customer Feedback")から嗜好データを収集しました。各ソースは、ペアになったテキストサンプルに対して「chosen」と「rejected」のラベルを付けています。各ペアには一意の「id」があり、各エントリは好まれた QC レビューを示します。

quality_df は pandas を使って読み込んだ統合済みの DataFrame で、3 つの異なるデータソースからのデータが含まれています。さらに、collections モジュールから Counter クラスが事前にインポートされています。

指示

100 XP
  • vote 関数内で、各(chosen, rejected)ペアの出現回数を数えます。
  • 票数が最も多い(chosen, rejected)ペアを見つけます。