1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în LLM-uri cu Python

Connected

exercițiu

Maparea tokenizării

Acum vrei să ai mai mult control asupra tokenizării și să încerci să tokenizezi datele pe rânduri sau în loturi. Astfel vei obține un obiect DataSet, de care ai nevoie pentru antrenament.

tokenizer-ul a fost încărcat pentru tine, împreună cu datele ca train_data și test_data.

Instrucțiuni 1/2

undefined XP
  • 1
    • Completează tokenize_function astfel încât să returneze tensori tokenizați cu trunchiere a secvenței și tokenizează train_data în loturi.
  • 2
    • Aplică tokenize_function pe train_data și tokenizează rând cu rând.