1. Apprendre
  2. /
  3. Cours
  4. /
  5. Génération augmentée par la recherche (RAG) avec LangChain

Connected

Exercice

Découper des documents de façon récursive

Découper selon un seul caractère est simple et prévisible, mais produit souvent des segments sous-optimaux. Dans cet exercice, vous allez appliquer un découpage récursif par caractères au document Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks que vous avez chargé dans un exercice précédent.

Rappelez-vous que le découpage récursif par caractères parcourt une liste de caractères et découpe successivement selon chacun pour vérifier si des segments peuvent être créés en dessous de la limite chunk_size.

Instructions

100 XP
  • Définissez un séparateur de texte récursif par caractères LangChain pour parcourir récursivement la liste de caractères ['\n', '.', ' ', ''] avec une taille de segment (chunk size) de 75 et un chevauchement de 10.
  • Découpez document à l'aide du text_splitter que vous avez défini et de la méthode appropriée.