Menyiapkan himpunan data preferensi
Dalam latihan ini, Anda akan bekerja dengan himpunan data yang berisi umpan balik manusia dalam bentuk keluaran "chosen" dan "rejected". Tugas Anda adalah mengekstrak prompt dari kolom "chosen" dan menyiapkan data untuk melatih model penghargaan.
Fungsi load_dataset dari datasets telah diimpor sebelumnya
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Petunjuk latihan
- Muat himpunan data
trl-internal-testing/hh-rlhf-helpful-base-trl-styledari Hugging Face. - Tulis fungsi yang mengekstrak prompt dari field
'content', dengan asumsi prompt berada pada indeks0dari masukan ke fungsi. - Terapkan fungsi yang mengekstrak prompt pada subset himpunan data
'chosen'.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])