1. Learn
  2. /
  3. Kurser
  4. /
  5. Développer des applications LLM avec LangChain

Connected

övning

Découpage par caractère

Un processus clé pour mettre en place la Retrieval Augmented Generation (RAG) consiste à découper les documents en segments afin de les stocker dans une base de données vectorielle.

Plusieurs stratégies de découpage sont offertes dans LangChain, certaines plus complexes que d'autres. Dans cet exercice, vous allez mettre en œuvre un character text splitter, qui segmente les documents en fonction des caractères et mesure la longueur des segments par le nombre de caractères.

Rappelez-vous qu'il n'existe pas de stratégie de découpage idéale ; vous devrez peut-être en essayer quelques-unes pour trouver celle qui convient à votre cas d'usage.

Instruktioner

100 XP
  • Importez la classe CharacterTextSplitter depuis langchain_text_splitters.
  • Créez une instance de CharacterTextSplitter avec separator="\n", chunk_size=24 et chunk_overlap=10.
  • Utilisez la méthode .split_text() pour découper quote, puis affichez les segments et leur longueur.