1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Extrakce promptů

Pracuješ s datasetem hendrydong/rlhf_helpful_eval, který obsahuje konverzační text mezi uživatelem (Human) a asistentem (Assistant). Tvým cílem je text vyčistit a připravit čistý prompt, ve kterém zůstane jen relevantní obsah bez specifických vzorů nebo tagů.

Vyber možnost, kterou bys použil/a k vyčištění datasetu a extrakci promptů. Ukázku toho, jak dataset vypadá, zobrazíš spuštěním následujícího kódu v konzoli:

evaluation_data.iloc[range(1)]['text'][0]

Pokyny

50 XP

Možné odpovědi