Učit se

/

Kurzy

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Fine-tuning s PPO

Po inicializaci trenéra teď musíš nastavit smyčku pro fine-tuning modelu.

Trenér odměn ppo_trainer byl inicializován pomocí třídy PPOTrainer z Python knihovny trl.

Pokyny

100 XP

Vygeneruj tenzory odpovědí pomocí vstupních ID a trenéra uvnitř PPO smyčky.
Dokonči krok v PPO smyčce, který využívá dotazy, odpovědi a data odměn k optimalizaci PPO modelu.