IniziaInizia gratis

Suddividere HTML

In questo esercizio suddividerai un file HTML contenente un ordine esecutivo sull'AI emanato dalla Casa Bianca degli Stati Uniti nell'ottobre 2023. Per mantenere il maggior contesto possibile nei blocchi, userai valori più alti per chunk_size e chunk_overlap.

Tutte le classi di LangChain necessarie per completare l'esercizio sono già state caricate per te.

Questo esercizio fa parte del corso

Sviluppare applicazioni LLM con LangChain

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un UnstructuredHTMLLoader per white_house_executive_order_nov_2023.html e caricalo in memoria.
  • Imposta un chunk_size di 300 e un chunk_overlap di 100.
  • Crea un RecursiveCharacterTextSplitter che suddivide sul carattere '.' e usa il metodo .split_documents() per suddividere data e stampare i blocchi.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = splitter.____(data)
print(docs)
Modifica ed esegui il codice