HTML splitsen
In deze oefening ga je een HTML-bestand splitsen met een executive order over AI, opgesteld door het Witte Huis (VS) in oktober 2023. Om zoveel mogelijk context in de stukken te behouden, gebruik je grotere waarden voor chunk_size en chunk_overlap.
Alle LangChain-klassen die je nodig hebt voor deze oefening zijn alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
LLM-toepassingen ontwikkelen met LangChain
Oefeninstructies
- Maak een
UnstructuredHTMLLoadervoorwhite_house_executive_order_nov_2023.htmlen laad deze in het geheugen. - Stel een
chunk_sizevan300en eenchunk_overlapvan100in. - Maak een
RecursiveCharacterTextSplitterdie splitst op het teken'.', en gebruik de methode.split_documents()omdatate splitsen en de stukken te printen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = splitter.____(data)
print(docs)