RLHF evalueren met metriek
Je traint een model met reinforcement learning met menselijke feedback (RLHF) en je moet de prestaties evalueren met geschikte metriek.
Welke van de volgende is het meest geschikt om een samenvattingstaak te evalueren met geautomatiseerde metriek?
Je kunt de gegevens visualiseren in de console om te bepalen welke metriek het beste bij de taak past. De gegevens die je moet evalueren zijn vooraf geladen als een DataFrame met de naam df_evaluation.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen