1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Retrieval Augmented Generation (RAG) with LangChain

Connected

Cvičení

Rozdělování podle tokenů

Rozdělování dokumentů pomocí RecursiveCharacterTextSplitter nebo CharacterTextSplitter je pohodlné a v některých případech dává dobré výsledky — má ale jednu nevýhodu: pracuje se znaky jako základní jednotkou, ne s tokeny, které model skutečně zpracovává.

V tomto cvičení rozdělíš dokumenty pomocí token text splitteru, takže si budeš moct ověřit počet tokenů v každém úseku a zajistit, že nepřekročí kontextové okno modelu. PDF dokument je načtený jako document.

tiktoken a všechny potřebné třídy jsou již naimportované.

Pokyny

100 XP
  • Načti kódování pro gpt-4o-mini z tiktoken, abys mohl/a zkontrolovat počet tokenů v každém úseku.
  • Vytvoř text splitter, který rozděluje text podle počtu tokenů, s využitím encoding pro GPT-4o-Mini.
  • Rozděl PDF uložené v proměnné document na úseky pomocí token_splitter.