Fractionnement du code HTML
Dans cet exercice, vous allez diviser un fichier HTML contenant un décret sur l'IA publié par la Maison Blanche américaine en octobre 2023. Afin de conserver autant de contexte que possible dans les parties, veuillez diviser en utilisant des valeurs plus élevées pour les paramètres chunk_size
et chunk_overlap
.
Toutes les classes LangChain nécessaires à la réalisation de cet exercice ont été préchargées pour vous.
Cet exercice fait partie du cours
Développement d'applications LLM avec LangChain
Instructions
- Créez un chargeur de documents pour
white_house_executive_order_nov_2023.html
, puis chargez-le en mémoire. - Définissez une valeur
chunk_size
de300
, et une valeurchunk_overlap
de100
. - Définissez le séparateur, en divisant sur le caractère
'.'
, puis utilisez-le pour diviserdata
et imprimer les parties.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the HTML document into memory
loader = ____
data = ____
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = ____
print(docs)