ComeçarComece gratuitamente

Divisão HTML

Neste exercício, você dividirá um HTML contendo uma ordem executiva sobre IA criada pela Casa Branca US em outubro de 2023. Para manter o máximo de contexto possível nos blocos, você dividirá usando valores maiores em chunk_size e chunk_overlap.

Todas as classes do LangChain necessárias para concluir este exercício foram pré-carregadas para você.

Este exercício faz parte do curso

Desenvolvimento de aplicativos LLM com LangChain

Ver Curso

Instruções de exercício

  • Crie um carregador de documentos para white_house_executive_order_nov_2023.html e carregue-o na memória.
  • Defina um chunk_size de 300 e um chunk_overlap de 100.
  • Defina o divisor, dividindo o caractere '.', e use-o para dividir data e imprimir os pedaços.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Load the HTML document into memory
loader = ____
data = ____

# Define variables
chunk_size = ____
chunk_overlap = ____

# Split the HTML
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=____)

docs = ____
print(docs)
Editar e executar código