Menyiapkan himpunan data preferensi
Dalam latihan ini, Anda akan bekerja dengan himpunan data yang berisi umpan balik manusia dalam bentuk keluaran "chosen" dan "rejected". Tugas Anda adalah mengekstrak prompt dari kolom "chosen" dan menyiapkan data untuk melatih model penghargaan.
Fungsi load_dataset dari datasets telah diimpor sebelumnya
Latihan ini merupakan bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Instruksi latihan
- Muat himpunan data
trl-internal-testing/hh-rlhf-helpful-base-trl-styledari Hugging Face. - Tulis fungsi yang mengekstrak prompt dari field
'content', dengan asumsi prompt berada pada indeks0dari masukan ke fungsi. - Terapkan fungsi yang mengekstrak prompt pada subset himpunan data
'chosen'.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])