Mulai sekarangMulai gratis

Menyiapkan himpunan data preferensi

Dalam latihan ini, Anda akan bekerja dengan himpunan data yang berisi umpan balik manusia dalam bentuk keluaran "chosen" dan "rejected". Tugas Anda adalah mengekstrak prompt dari kolom "chosen" dan menyiapkan data untuk melatih model penghargaan.

Fungsi load_dataset dari datasets telah diimpor sebelumnya

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Instruksi latihan

  • Muat himpunan data trl-internal-testing/hh-rlhf-helpful-base-trl-style dari Hugging Face.
  • Tulis fungsi yang mengekstrak prompt dari field 'content', dengan asumsi prompt berada pada indeks 0 dari masukan ke fungsi.
  • Terapkan fungsi yang mengekstrak prompt pada subset himpunan data 'chosen'.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Edit dan Jalankan Kode