ComeçarComece de graça

Extração de texto de PDF e divisão em blocos

Este exercício faz parte do curso

RAG de ponta a ponta com Weaviate

Ver curso

Instruções do exercício

  • Execute o código fornecido para processar os documentos PDF usando docling e analisá-los como arquivos markdown.
  • Defina uma função get_chunks_by_length_with_overlap() para dividir md_txt usando tamanho de bloco de 500 caracteres e sobreposição de 100 caracteres.
  • Defina uma função get_chunks_using_markers() para dividir md_text_1 separando pelos subtítulos que não são títulos ("\n##").
  • Aplique a função get_chunks_using_markers() em md_text_2 e compare os resultados com md_text_1.


Observação: se você estiver executando o DataLab no Modo Restrito, este exercício ainda não é compatível. Estamos trabalhando ativamente para disponibilizá-lo no futuro.


Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício