Inicjalizacja nagrody

Jesteś na ostatnim etapie wdrażania modelu generatywnego, który ma oferować spersonalizowane rekomendacje dla internetowej księgarni. Aby dopasować ten model do rekomendacji preferowanych przez ludzi, musisz wytrenować model nagrody na zebranych danych preferencji. Pierwszym krokiem jest zainicjalizowanie modelu i parametrów konfiguracyjnych.

AutoTokenizer i AutoModelForSequenceClassification zostały wstępnie załadowane z transformers. RewardConfig zostało wstępnie załadowane z trl.

Załaduj model GPT-1, "openai-gpt", do zadania klasyfikacji sekwencji, korzystając z AutoModelForSequenceClassification z Hugging Face.
Zainicjalizuj konfigurację nagrody, używając "output_dir" jako katalogu wyjściowego, i ustaw maksymalną długość tokenu na 60.

ćwiczenie

Inicjalizacja nagrody

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie