1. Learn
  2. /
  3. Курси
  4. /
  5. Retrieval Augmented Generation (RAG) з LangChain

Connected

вправа

Розбиття за токенами

Використовувати RecursiveCharacterTextSplitter або CharacterTextSplitter зручно, і в деяких випадках це дає хороші результати. Однак є один недолік: ці інструменти беруть за базову одиницю символи, а не токени, з якими працює модель.

У цій вправі ви розіб'єте документи за допомогою розбивача за токенами. Так ви зможете перевірити кількість токенів у кожному фрагменті й переконатися, що вони не перевищують контекстне вікно моделі. PDF-документ завантажено в змінну document.

tiktoken та всі потрібні класи вже імпортовано для вас.

Інструкції

100 XP
  • Отримайте кодування для gpt-4o-mini з tiktoken, щоб можна було перевірити кількість токенів у кожному фрагменті.
  • Створіть розбивач тексту, який ділить за кількістю токенів, використовуючи encoding моделі GPT-4o-Mini.
  • Розбийте PDF, що зберігається в document, на фрагменти за допомогою token_splitter.