Extracción de texto de PDF y segmentación en trozos
Este ejercicio forma parte del curso
RAG de extremo a extremo con Weaviate
Instrucciones del ejercicio
- Ejecuta el código proporcionado para procesar los documentos PDF con
doclingy analizarlos como archivos markdown. - Define una función
get_chunks_by_length_with_overlap()para segmentarmd_txtusando trozos de500caracteres y un solapamiento de100caracteres. - Define una función
get_chunks_using_markers()para segmentarmd_text_1dividiendo por encabezados que no sean de título ("\n##"). - Aplica la función
get_chunks_using_markers()amd_text_2y compara los resultados conmd_text_1.
Nota: Si estás ejecutando DataLab en modo restringido (Restricted Mode), este ejercicio aún no es compatible. Estamos trabajando activamente para que esté disponible en el futuro.
Ejercicio interactivo práctico
Pon en práctica la teoría con uno de nuestros ejercicios interactivos
Empezar ejercicio