1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Tokenizacja zbioru danych tekstowych

Pracujesz nad badaniem rynku dla serwisu turystycznego i chcesz wykorzystać istniejący zbiór danych do dostrojenia modelu klasyfikującego recenzje hoteli. W tym celu używasz biblioteki datasets.

Klasa AutoTokenizer została wcześniej zaimportowana z transformers, a funkcja load_dataset() – z datasets.

Instrukcje

100 XP
  • Dodaj dopełnienie (padding) do tokenizatora, aby przetwarzać tekst w partiach o jednakowym rozmiarze.
  • Stokenizuj dane tekstowe, używając wstępnie wytrenowanego tokenizatora GPT i zdefiniowanej funkcji.