Divisão de HTML
Neste exercício, você vai dividir um HTML que contém uma ordem executiva sobre IA criada pela Casa Branca dos EUA em outubro de 2023. Para manter o máximo de contexto possível nos trechos, você vai dividir usando valores maiores para chunk_size
e chunk_overlap
.
Todas as classes do LangChain necessárias para fazer este exercício já estão prontas para você.
Este exercício faz parte do curso
Desenvolvimento de aplicativos de LLM com LangChain
Instruções do exercício
- Crie um carregador de documentos para
white_house_executive_order_nov_2023.html
e carregue-o na memória. - Defina um
chunk_size
de300
e umchunk_overlap
de100
. - Defina o divisor, dividindo pelo caractere
'.'
, e use-o para dividirdata
e imprimir os trechos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the HTML document into memory
loader = ____
data = ____
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = ____
print(docs)