Prompts extraheren
Je werkt met de gegevensset hendrydong/rlhf_helpful_eval, die gesprekstekst bevat tussen een gebruiker (Human) en een assistent (Assistant). Je doel is om de tekst op te schonen en een nette prompt voor te bereiden waarin alleen de relevante tekst staat, zonder specifieke patronen of tags.
Kies de optie die je zou gebruiken om de gegevensset op te schonen om prompts te extraheren. Je kunt een fragment van hoe de gegevensset eruitziet bekijken door de volgende code in de console uit te voeren:
evaluation_data.iloc[range(1)]['text'][0]
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen