övning

Przygotowanie zbioru danych preferencji

W tym ćwiczeniu będziesz pracować ze zbiorem danych zawierającym informacje zwrotne od ludzi w postaci wyników oznaczonych jako "chosen" (wybrany) i "rejected" (odrzucony). Twoim zadaniem jest wyodrębnienie promptów z kolumny "chosen" i przygotowanie danych do trenowania modelu nagrody.

Funkcja load_dataset z biblioteki datasets została już zaimportowana.

Instruktioner

100 XP

Wczytaj zbiór danych trl-internal-testing/hh-rlhf-helpful-base-trl-style z Hugging Face.
Napisz funkcję, która wyodrębnia prompt z pola 'content', zakładając, że prompt znajduje się pod indeksem 0 argumentu wejściowego funkcji.
Zastosuj funkcję wyodrębniającą prompt do podzbioru 'chosen' zbioru danych.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}övning

Instruktioner

övning