1. Learn
  2. /
  3. Курси
  4. /
  5. Вступ до LLM у Python

Connected

вправа

Відображення токенізації

Тепер ви хочете перевірити варіант із більшою керованістю токенізацією та спробувати токенізувати дані рядками або пакетами. Це також поверне об'єкт DataSet, який знадобиться вам для тренування.

tokenizer уже завантажено разом із даними як train_data та test_data.

Інструкції 1/2

undefined XP
  • 1
    • Доповніть tokenize_function, щоб вона повертала токенізовані тензори зі скороченням послідовностей, і виконайте токенізацію train_data пакетами.
  • 2
    • Застосуйте tokenize_function до train_data та виконайте токенізацію рядок за рядком.