1. Learn
  2. /
  3. Courses
  4. /
  5. Développer des applications LLM avec LangChain

Connected

Exercise

Découper du HTML

Dans cet exercice, vous allez découper un fichier HTML qui contient un décret présidentiel sur l'IA publié par la Maison-Blanche des États-Unis en octobre 2023. Pour conserver le plus de contexte possible dans les segments, vous utiliserez des valeurs plus élevées pour chunk_size et chunk_overlap.

Toutes les classes LangChain nécessaires pour réaliser cet exercice ont été préchargées pour vous.

Instructions

100 XP
  • Créez un UnstructuredHTMLLoader pour white_house_executive_order_nov_2023.html, puis chargez-le en mémoire.
  • Définissez un chunk_size de 300 et un chunk_overlap de 100.
  • Créez un RecursiveCharacterTextSplitter qui découpe selon le caractère '.', puis utilisez la méthode .split_documents() pour découper data et afficher les segments.