MulaiMulai sekarang secara gratis

Menyiapkan himpunan data preferensi

Dalam latihan ini, Anda akan bekerja dengan himpunan data yang berisi umpan balik manusia dalam bentuk keluaran "chosen" dan "rejected". Tugas Anda adalah mengekstrak prompt dari kolom "chosen" dan menyiapkan data untuk melatih model penghargaan.

Fungsi load_dataset dari datasets telah diimpor sebelumnya

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Muat himpunan data trl-internal-testing/hh-rlhf-helpful-base-trl-style dari Hugging Face.
  • Tulis fungsi yang mengekstrak prompt dari field 'content', dengan asumsi prompt berada pada indeks 0 dari masukan ke fungsi.
  • Terapkan fungsi yang mengekstrak prompt pada subset himpunan data 'chosen'.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Edit dan Jalankan Kode