1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Dostrajanie z PPO

Po zainicjalizowaniu trenera musisz teraz skonfigurować pętlę do dostrajania modelu.

Trener nagród ppo_trainer został zainicjalizowany przy użyciu klasy PPOTrainer z biblioteki trl.

Instrukcje

100 XP
  • Wygeneruj tensory odpowiedzi, korzystając z identyfikatorów wejściowych i trenera wewnątrz pętli PPO.
  • Uzupełnij krok w pętli PPO, który wykorzystuje zapytania, odpowiedzi i dane o nagrodach do optymalizacji modelu PPO.