Suddividere HTML
In questo esercizio suddividerai un file HTML contenente un ordine esecutivo sull'AI emanato dalla Casa Bianca degli Stati Uniti nell'ottobre 2023. Per mantenere il maggior contesto possibile nei blocchi, userai valori più alti per chunk_size e chunk_overlap.
Tutte le classi di LangChain necessarie per completare l'esercizio sono già state caricate per te.
Questo esercizio fa parte del corso
Sviluppare applicazioni LLM con LangChain
Istruzioni dell'esercizio
- Crea un
UnstructuredHTMLLoaderperwhite_house_executive_order_nov_2023.htmle caricalo in memoria. - Imposta un
chunk_sizedi300e unchunk_overlapdi100. - Crea un
RecursiveCharacterTextSplitterche suddivide sul carattere'.'e usa il metodo.split_documents()per suddivideredatae stampare i blocchi.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the HTML document into memory
loader = UnstructuredHTMLLoader(____)
data = loader.____()
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = splitter.____(data)
print(docs)