1. 学习
  2. /
  3. 课程
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

练习

選好データセットの準備

この演習では、"chosen" と "rejected" の出力という形で人手によるフィードバックを含むデータセットを扱います。あなたのタスクは、"chosen" 列からプロンプトを抽出し、報酬モデルの学習用にデータを準備することです。

datasets の load_dataset 関数はあらかじめインポートされています。

说明

100 XP
  • Hugging Face から trl-internal-testing/hh-rlhf-helpful-base-trl-style データセットを読み込みます。
  • 関数の入力の 0 番目のインデックスにプロンプトがあると仮定して、'content' フィールドからプロンプトを抽出する関数を書きます。
  • プロンプトを抽出する関数を、'chosen' データセットサブセットに適用します。