1. Learn
  2. /
  3. Courses
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

Exercise

信頼性の低いデータソースの特定

自動車の安全性に関する正確なレポート作成を支援するモデルを開発しています。3つのデータソース("GlobalDrive Safety Institute"、"AutoTech Safety Alliance"、"QuickScan Auto Review")から嗜好データを収集しました。最近、データの完全性に懸念が生じ、信頼性の低いデータソースがないか評価するよう依頼されました。

automotive_df は、事前にインポートされた pandas ライブラリを使って読み込まれた結合済みの DataFrame で、3つのソースからのデータを含みます。事前にインポートされた majority_vote 関数は、各 'id' ごとの多数決の(chosen, rejected)のペアを持つ辞書のようなオブジェクトを作成します。

Instructions

100 XP
  • 特定のデータソースについて、多数決との不一致を1件として数える条件を定義してください。