ComeçarComece de graça

Divisão de HTML

Neste exercício, você vai dividir um HTML que contém uma ordem executiva sobre IA criada pela Casa Branca dos EUA em outubro de 2023. Para manter o máximo de contexto possível nos trechos, você vai dividir usando valores maiores para chunk_size e chunk_overlap.

Todas as classes do LangChain necessárias para fazer este exercício já estão prontas para você.

Este exercício faz parte do curso

Desenvolvimento de aplicativos de LLM com LangChain

Ver curso

Instruções do exercício

  • Crie um carregador de documentos para white_house_executive_order_nov_2023.html e carregue-o na memória.
  • Defina um chunk_size de 300 e um chunk_overlap de 100.
  • Defina o divisor, dividindo pelo caractere '.', e use-o para dividir data e imprimir os trechos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the HTML document into memory
loader = ____
data = ____

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = ____
print(docs)
Editar e executar o código