Nauka

/

Kursy

/

Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Dostrajanie z PPO

Po zainicjalizowaniu trenera musisz teraz skonfigurować pętlę do dostrajania modelu.

Trener nagród ppo_trainer został zainicjalizowany przy użyciu klasy PPOTrainer z biblioteki trl.

Instrukcje

100 XP

Wygeneruj tensory odpowiedzi, korzystając z identyfikatorów wejściowych i trenera wewnątrz pętli PPO.
Uzupełnij krok w pętli PPO, który wykorzystuje zapytania, odpowiedzi i dane o nagrodach do optymalizacji modelu PPO.