1. Learn
  2. /
  3. Kurser
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

övning

Przygotowanie zbioru danych preferencji

W tym ćwiczeniu będziesz pracować ze zbiorem danych zawierającym informacje zwrotne od ludzi w postaci wyników oznaczonych jako "chosen" (wybrany) i "rejected" (odrzucony). Twoim zadaniem jest wyodrębnienie promptów z kolumny "chosen" i przygotowanie danych do trenowania modelu nagrody.

Funkcja load_dataset z biblioteki datasets została już zaimportowana.

Instruktioner

100 XP
  • Wczytaj zbiór danych trl-internal-testing/hh-rlhf-helpful-base-trl-style z Hugging Face.
  • Napisz funkcję, która wyodrębnia prompt z pola 'content', zakładając, że prompt znajduje się pod indeksem 0 argumentu wejściowego funkcji.
  • Zastosuj funkcję wyodrębniającą prompt do podzbioru 'chosen' zbioru danych.