1. Learn
  2. /
  3. Курси
  4. /
  5. Вступ до LLM у Python

Connected

вправа

Токенізація тексту

Ви хочете скористатися попередньо натренованою моделлю з Hugging Face і донавчити її на даних команди підтримки вашої компанії, щоб класифікувати взаємодії залежно від ризику відтоку клієнта. Це допоможе команді визначати пріоритети: з чого почати й як діяти, щоб працювати більш проактивно.

Підготуйте тренувальні та тестові дані до донавчання, виконавши токенізацію тексту.

Об'єкти AutoTokenizer і AutoModelForSequenceClassification уже завантажено для вас.

Інструкції

100 XP
  • Завантажте попередньо натреновані модель і токенайзер для підготовки до донавчання.
  • Виконайте токенізацію і для train_data["interaction"], і для test_data["interaction"], увімкнувши доповнення (padding) і урізання послідовностей (truncation).