1. Apprendre
  2. /
  3. Cours
  4. /
  5. Développer des applications LLM avec LangChain

Connected

Exercice

Découpage récursif par caractère

Beaucoup de développeurs utilisent un séparateur récursif par caractères pour découper des documents selon une liste précise de caractères. Par défaut, il s'agit des paragraphes, des retours à la ligne, des espaces et de la chaîne vide : ["\n\n", "\n", " ", ""].

Concrètement, le séparateur essaie d'abord de découper par paragraphes, vérifie si les valeurs de chunk_size et chunk_overlap sont respectées et, sinon, découpe par phrases, puis par mots, puis par caractères individuels.

Il faut souvent expérimenter différentes valeurs de chunk_size et de chunk_overlap pour trouver celles qui conviennent à vos documents.

Instructions

100 XP
  • Importez la classe RecursiveCharacterTextSplitter depuis langchain_text_splitters.
  • Créez une instance de RecursiveCharacterTextSplitter avec separators=["\n", " ", ""], chunk_size=24 et chunk_overlap=10.
  • Utilisez la méthode .split_text() pour découper quote, puis affichez les segments et la longueur de chaque segment.