연습 문제

Inicjalizacja trenera PPO

Pracujesz w firmie obsługi klienta, która korzysta z chatbota do odpowiadania na pytania użytkowników. Chatbot udziela pomocnych odpowiedzi, jednak ostatnio pojawiły się opinie, że brakuje im głębi. Musisz dostroić model stojący za chatbotem – zacznij od utworzenia instancji trenera PPO.

Zbiór danych dataset_cs został już wczytany.

지침

100 XP

Zainicjalizuj konfigurację PPO z nazwą modelu "gpt2" i współczynnikiem uczenia równym 1.2e-5.
Wczytaj AutoModelForCausalLMWithValueHead – przyczynowy model językowy z głowicą wartości.
Utwórz PPOTrainer(), używając zdefiniowanego modelu, konfiguracji i tokenizera oraz wstępnie wczytanego zbioru danych.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제