1. Learn
  2. /
  3. Kurser
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

övning

Weryfikacja modelu nagród

Wracasz do dostrajania modelu i zauważasz, że jego wydajność nadal jest gorsza w porównaniu z modelem bazowym. Tym razem chcesz przyjrzeć się modelowi nagród – przygotowałeś zbiór danych z wynikami tego modelu i zamierzasz go przeanalizować. Jakie kontrole wykonasz na danych wyjściowych?

Zbiór danych został wstępnie zaimportowany jako reward_model_results.

Instruktioner

50 XP

Möjliga svar