Extração de texto de PDF e divisão em blocos
Este exercício faz parte do curso
RAG de ponta a ponta com Weaviate
Instruções do exercício
- Execute o código fornecido para processar os documentos PDF usando
doclinge analisá-los como arquivos markdown. - Defina uma função
get_chunks_by_length_with_overlap()para dividirmd_txtusando tamanho de bloco de500caracteres e sobreposição de100caracteres. - Defina uma função
get_chunks_using_markers()para dividirmd_text_1separando pelos subtítulos que não são títulos ("\n##"). - Aplique a função
get_chunks_using_markers()emmd_text_2e compare os resultados commd_text_1.
Observação: se você estiver executando o DataLab no Modo Restrito, este exercício ainda não é compatível. Estamos trabalhando ativamente para disponibilizá-lo no futuro.
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício