Division par caractère

Un processus clé dans la mise en œuvre de la Génération à enrichissement contextuel (RAG) consiste à diviser les documents en plusieurs parties afin de les stocker dans une base de données vectorielle.

LangChain propose plusieurs stratégies de fractionnement, certaines avec des routines plus complexes que d'autres. Dans cet exercice, vous allez implémenter un séparateur de texte par caractères, qui divise les documents en fonction des caractères et mesure la longueur des parties en fonction du nombre de caractères.

N'oubliez pas qu'il n'existe pas de stratégie de fractionnement idéale. Vous devrez peut-être en tester plusieurs avant de trouver celle qui convient le mieux à votre cas.

Cet exercice fait partie du cours

<cours>Développement d'applications LLM avec LangChain</cours>

Instructions de l’exercice

Importez la classe LangChain appropriée pour diviser un document par caractère.
Définissez un séparateur de caractères qui sépare les chaînes de caractères à l'aide de "\n" avec chunk_size 24et chunk_overlap 10.
Divisez quote, puis imprimez les parties et leur longueur.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the character splitter
from langchain_text_splitters import ____

quote = 'Words are flowing out like endless rain into a paper cup,\nthey slither while they pass,\nthey slip away across the universe.'
chunk_size = 24
chunk_overlap = 10

# Create an instance of the splitter class
splitter = ____

# Split the string and print the chunks
docs = ____
print(docs)
print([len(doc) for doc in docs])

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Développement d'applications LLM avec LangChain</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Bienvenue dans le framework LangChain pour concevoir des applications sur les LLM. Vous découvrirez les principaux composants de LangChain, notamment les modèles, les chaînes, les agents, les prompts et les analyseurs syntaxiques. Vous créerez des chatbots à l'aide de modèles open source de Hugging Face et de modèles propriétaires d'OpenAI, vous créerez des modèles de prompts instantanés et intégrerez différentes stratégies de mémoire pour les chatbots afin de gérer le contexte et les ressources pendant les conversations.

Exercise 1: L'écosystème LangChain Exercise 2: Modèles OpenAI dans LangChain !Exercise 3: Modèles Hugging Face dans LangChain !Exercise 4: Modèles de prompts Exercise 5: Modèles de prompts et chaînage Exercise 6: Modèles de prompts instantanés Exercise 7: Prompts few-shot Exercise 8: Création d'un ensemble d'exemple few-shot Exercise 9: Création du modèle de prompt few-shot Exercise 10: Mise en œuvre du prompt few-shot

Il est temps de passer au niveau supérieur avec vos chaînes LangChain ! Vous apprendrez à utiliser le LangChain Expression Language (LCEL) pour définir des chaînes avec plus de flexibilité. Vous allez créer des chaînes séquentielles, dans lesquelles les entrées sont transmises entre les composants afin de créer des applications plus avancées. Vous commencerez également à intégrer des agents qui utilisent les LLM pour la prise de décision.

Exercise 1: Chaînes séquentielles Exercise 2: Création de prompts pour des chaînes séquentielles Exercise 3: Chaînes séquentielles avec LCEL Exercise 4: Présentation des agents LangChain Exercise 5: Qu'est-ce qu'un agent ?Exercise 6: Agents ReAct Exercise 7: Outils personnalisés pour les agents Exercise 8: Définir une fonction pour l'utilisation d'un outil Exercise 9: Création d'outils personnalisés Exercise 10: Intégration d'outils personnalisés avec des agents

Une des limites des LLM réside dans le fait qu'ils ont une connaissance limitée, car ils ont été entraînés à partir de données collectées jusqu'à un certain point. Dans ce chapitre, vous apprendrez à créer des applications qui utilisent la Génération à enrichissement contextuel (RAG) pour intégrer des données externes à des modèles de langage naturel (LLM). Le flux de travail RAG comprend plusieurs processus différents, notamment la division des données, la création et le stockage des intégrations à l'aide d'une base de données vectorielle, ainsi que la récupération des informations les plus pertinentes pour une utilisation dans l'application. Vous apprendrez à maîtriser l'ensemble du processus de travail.

Exercise 1: Intégration de chargeurs de documents Exercise 2: Chargeurs de documents PDF Exercise 3: Chargeurs de documents CSV Exercise 4: Chargeurs de documents HTML Exercise 5: Fractionnement des données externes pour la récupération Exercise 6: Division par caractère

Exercice actuel

Exercise 7: Division récursive par caractère Exercise 8: Fractionnement du code HTML Exercise 9: Stockage et récupération RAG à l'aide de bases de données vectorielles Exercise 10: Préparation des documents et de la base de données vectorielle Exercise 11: Création d'un modèle de prompt de récupération Exercise 12: Création d'une chaîne RAG Exercise 13: Conclusion !