1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Fine-tuning s PPO

Po inicializaci trenéra teď musíš nastavit smyčku pro fine-tuning modelu.

Trenér odměn ppo_trainer byl inicializován pomocí třídy PPOTrainer z Python knihovny trl.

Pokyny

100 XP
  • Vygeneruj tenzory odpovědí pomocí vstupních ID a trenéra uvnitř PPO smyčky.
  • Dokonči krok v PPO smyčce, který využívá dotazy, odpovědi a data odměn k optimalizaci PPO modelu.