CommencerCommencer gratuitement

Fractionnement du code HTML

Dans cet exercice, vous allez diviser un fichier HTML contenant un décret sur l'IA publié par la Maison Blanche américaine en octobre 2023. Afin de conserver autant de contexte que possible dans les parties, veuillez diviser en utilisant des valeurs plus élevées pour les paramètres chunk_size et chunk_overlap.

Toutes les classes LangChain nécessaires à la réalisation de cet exercice ont été préchargées pour vous.

Cet exercice fait partie du cours

Développement d'applications LLM avec LangChain

Afficher le cours

Instructions

  • Créez un chargeur de documents pour white_house_executive_order_nov_2023.html, puis chargez-le en mémoire.
  • Définissez une valeur chunk_size de 300, et une valeur chunk_overlap de 100.
  • Définissez le séparateur, en divisant sur le caractère '.', puis utilisez-le pour diviser data et imprimer les parties.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the HTML document into memory
loader = ____
data = ____

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = ____
print(docs)
Modifier et exécuter le code