1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

Bài tập

8ビット学習の準備

RLHF のファインチューニングを始めようとしましたが、メモリ不足エラーが頻発しました。これに対処するため、Hugging Face の peft ライブラリを活用して、より効率的にファインチューニングできる 8ビット精度に切り替えることにしました。

次のモジュールはすでにインポートされています。

  • transformers の AutoModelForCausalLM
  • peft の prepare_model_for_int8_training
  • trl の AutoModelForCausalLMWithValueHead

Hướng dẫn

100 XP
  • 事前学習済みモデルを読み込み、8ビット精度用のパラメータを必ず指定します。
  • prepare_model_for_int8_training 関数を使って、LoRA ベースのファインチューニングに備えてモデルを準備します。
  • PPO 学習用に、Value Head を持つモデルを読み込みます。