1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Kontrola modelu odměn

Vracíš se k doladění modelu a zjišťuješ, že jeho výkon je stále horší než u základního modelu. Tentokrát chceš prověřit model odměn – připravil/a sis dataset s výsledky z tohoto modelu, který teď budeš analyzovat. Jaké kontroly na výstupních datech provedeš?

Dataset byl předem načten jako reward_model_results.

Pokyny

50 XP

Možné odpovědi