1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Retrieval Augmented Generation (RAG) z LangChain

Connected

Exercise

Podział według tokenów

Podział dokumentów za pomocą RecursiveCharacterTextSplitter lub CharacterTextSplitter jest wygodny i w niektórych przypadkach daje dobre wyniki, ma jednak jedną wadę: jako jednostki podziału używa znaków, a nie tokenów przetwarzanych przez model.

W tym ćwiczeniu podzielisz dokumenty przy użyciu splittera opartego na tokenach, dzięki czemu będziesz mógł zweryfikować liczbę tokenów w każdym fragmencie i upewnić się, że nie przekracza ona okna kontekstowego modelu. Dokument PDF został wczytany jako document.

Biblioteka tiktoken oraz wszystkie niezbędne klasy zostały już zaimportowane.

Instrukcje

100 XP
  • Pobierz kodowanie dla modelu gpt-4o-mini z biblioteki tiktoken, aby móc sprawdzić liczbę tokenów w każdym fragmencie.
  • Utwórz splitter tekstu, który będzie dzielić dokumenty na podstawie liczby tokenów, korzystając z kodowania encoding modelu GPT-4o-Mini.
  • Podziel dokument PDF zapisany w zmiennej document na fragmenty przy użyciu token_splitter.