Het rewardmodel controleren
Je gaat terug naar het fine-tunen van het model en merkt dat de prestaties nog steeds slechter zijn dan die van het basismodel. Deze keer wil je het rewardmodel inspecteren. Je hebt een gegevensset samengesteld met resultaten van het model die je gaat analyseren. Welke controles voer je uit op de uitvoergegevens?
De gegevensset is al geïmporteerd als reward_model_results.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen