1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do LLM w Pythonie

Connected

ćwiczenie

Mapowanie tokenizacji

Chcesz teraz przetestować większą kontrolę nad tokenizacją i spróbować tokenizować dane wierszami lub partiami. Dzięki temu otrzymasz obiekt DataSet, który będzie potrzebny do trenowania.

tokenizer został już wczytany wraz z danymi jako train_data i test_data.

Instrukcje 1/2

undefined XP
  • 1
    • Uzupełnij tokenize_function tak, aby zwracała stokenizowane tensory z obcinaniem sekwencji, a następnie stokenizuj train_data partiami.
  • 2
    • Zastosuj tokenize_function na train_data i tokenizuj wiersz po wierszu.