CommencerCommencer gratuitement

Division par caractère

Un processus clé dans la mise en œuvre de la Génération à enrichissement contextuel (RAG) consiste à diviser les documents en plusieurs parties afin de les stocker dans une base de données vectorielle.

LangChain propose plusieurs stratégies de fractionnement, certaines avec des routines plus complexes que d'autres. Dans cet exercice, vous allez implémenter un séparateur de texte par caractères, qui divise les documents en fonction des caractères et mesure la longueur des parties en fonction du nombre de caractères.

N'oubliez pas qu'il n'existe pas de stratégie de fractionnement idéale. Vous devrez peut-être en tester plusieurs avant de trouver celle qui convient le mieux à votre cas.

Cet exercice fait partie du cours

Développement d'applications LLM avec LangChain

Afficher le cours

Instructions

  • Importez la classe LangChain appropriée pour diviser un document par caractère.
  • Définissez un séparateur de caractères qui sépare les chaînes de caractères à l'aide de "\n" avec chunk_size 24et chunk_overlap 10.
  • Divisez quote, puis imprimez les parties et leur longueur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = ____

# Split the string and print the chunks
docs = ____
print(docs)
print([len(doc) for doc in docs])
Modifier et exécuter le code