1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Nízká míra jistoty

V tomto cvičení budeš pracovat s modelem odměn a vyhodnocovat, jak jistě klasifikuje vstupní text. Zároveň odfiltrujete predikce, které nejsou dostatečně spolehlivé. Cílem je otestovat schopnost modelu generovat predikce a pomocí prahu jistoty zajistit, aby byly za platné považovány jen ty s dostatečně vysokou spolehlivostí.

Proměnné s rozděleními pravděpodobností pro každý text zpětné vazby (prob_dists) a samotné texty zpětné vazby (texts) jsou již načteny, stejně jako funkce least_confidence().

Pokyny

100 XP
  • Definuj funkci, která vyfiltruje indexy těch rozdělení pravděpodobností, jejichž míra jistoty je nižší než zadaný práh.
  • Získej indexy komentářů zpětné vazby tak, že předáš rozdělení pravděpodobností do funkce a ponecháš práh beze změny (0.5).