Divisão HTML
Neste exercício, você dividirá um HTML contendo uma ordem executiva sobre IA criada pela Casa Branca US em outubro de 2023. Para manter o máximo de contexto possível nos blocos, você dividirá usando valores maiores em chunk_size
e chunk_overlap
.
Todas as classes do LangChain necessárias para concluir este exercício foram pré-carregadas para você.
Este exercício faz parte do curso
Desenvolvimento de aplicativos LLM com LangChain
Instruções de exercício
- Crie um carregador de documentos para
white_house_executive_order_nov_2023.html
e carregue-o na memória. - Defina um
chunk_size
de300
e umchunk_overlap
de100
. - Defina o divisor, dividindo o caractere
'.'
, e use-o para dividirdata
e imprimir os pedaços.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Load the HTML document into memory
loader = ____
data = ____
# Define variables
chunk_size = ____
chunk_overlap = ____
# Split the HTML
splitter = RecursiveCharacterTextSplitter(
chunk_size=chunk_size,
chunk_overlap=chunk_overlap,
separators=____)
docs = ____
print(docs)