1. 학습
  2. /
  3. 강의
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

연습 문제

報酬の初期化

あなたは、オンライン書店向けにパーソナライズされたレコメンデーションを提供する生成モデルのデプロイ最終段階にいます。人間が好む推薦にモデルを合わせ込むため、収集した選好データを使って報酬モデルを学習する必要があります。最初のステップは、モデルと設定パラメータを初期化することです。

AutoTokenizer と AutoModelForSequenceClassification は transformers から、RewardConfig は trl から事前に読み込まれています。

지침

100 XP
  • Hugging Face の AutoModelForSequenceClassification を使って、シーケンス分類タスク用に GPT-1 モデル "openai-gpt" を読み込みます。
  • 出力ディレクトリに "output_dir" を使い、トークンの最大長を 60 に設定して、報酬設定を初期化します。