Exercise

Inicializace odměny

Jsi v závěrečné fázi nasazení generativního modelu, který nabízí personalizovaná doporučení pro online knihkupectví. Aby model odpovídal doporučením preferovaným lidmi, potřebuješ natrénovat model odměny pomocí shromážděných dat o preferencích. Prvním krokem je inicializace modelu a konfiguračních parametrů.

AutoTokenizer a AutoModelForSequenceClassification byly předem načteny z transformers. RewardConfig byl předem načten z trl.

Instructions

100 XP

Načti model GPT-1, "openai-gpt", pro úlohu klasifikace sekvencí pomocí AutoModelForSequenceClassification z Hugging Face.
Inicializuj konfiguraci odměny s "output_dir" jako výstupním adresářem a nastav maximální délku tokenu na 60.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise