1. Learn
  2. /
  3. Courses
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

Exercise

LoRA で学習する

RLHF のファインチューニングを始めようとしましたが、メモリ不足エラーが続きました。8-bit 精度での読み込みに切り替えても解決しなかったため、次の一手として LoRA を適用し、より効率的にファインチューニングすることにしました。

以下はすでに読み込み済みです。

  • 8-bit 精度で読み込まれたモデル pretrained_model_8bit
  • peft の LoraConfig と get_peft_model
  • trl の AutoModelForCausalLMWithValueHead

Instructions

100 XP
  • LoRA のドロップアウトを 0.1、bias の種類を lora-only に設定します。
  • モデルに LoRA の設定を適用します。
  • PPO 学習用に、値ヘッド付きのモデルをセットアップします。