選好データセットの準備

この演習では、"chosen" と "rejected" の出力という形で人手によるフィードバックを含むデータセットを扱います。あなたのタスクは、"chosen" 列からプロンプトを抽出し、報酬モデルの学習用にデータを準備することです。

datasets の load_dataset 関数はあらかじめインポートされています。