1. Learn
  2. /
  3. Courses
  4. /
  5. Génération augmentée par la recherche (RAG) avec LangChain

Connected

Exercise

Découpage par jetons

Utiliser RecursiveCharacterTextSplitter ou CharacterTextSplitter pour découper des documents est pratique et peut offrir de bonnes performances dans certains cas, mais il y a un inconvénient : ces méthodes découpent avec des caractères comme unités de base plutôt qu'avec des jetons (tokens), qui sont ceux traités par le modèle.

Dans cet exercice, vous allez découper des documents avec un séparateur basé sur les jetons, afin de pouvoir vérifier le nombre de jetons dans chaque segment et vous assurer qu'ils ne dépassent pas la fenêtre de contexte du modèle. Un document PDF a été chargé sous le nom document.

tiktoken et toutes les classes nécessaires ont été importés pour vous.

Instructions

100 XP
  • Récupérez l'encodage pour gpt-4o-mini à partir de tiktoken afin de pouvoir vérifier le nombre de jetons dans chaque segment.
  • Créez un séparateur de texte pour découper selon le nombre de jetons en utilisant l'encoding de GPT-4o-Mini.
  • Découpez le PDF, stocké dans document, en segments à l'aide de token_splitter.