Aan de slagGa gratis aan de slag

HTML splitsen

In deze oefening ga je een HTML-bestand splitsen met een executive order over AI, opgesteld door het Witte Huis (VS) in oktober 2023. Om zoveel mogelijk context in de stukken te behouden, gebruik je grotere waarden voor chunk_size en chunk_overlap.

Alle LangChain-klassen die je nodig hebt voor deze oefening zijn alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

LLM-toepassingen ontwikkelen met LangChain

Cursus bekijken

Oefeninstructies

  • Maak een UnstructuredHTMLLoader voor white_house_executive_order_nov_2023.html en laad deze in het geheugen.
  • Stel een chunk_size van 300 en een chunk_overlap van 100 in.
  • Maak een RecursiveCharacterTextSplitter die splitst op het teken '.', en gebruik de methode .split_documents() om data te splitsen en de stukken te printen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = splitter.____(data)
print(docs)
Code bewerken en uitvoeren