ComenzarEmpieza gratis

Extracción de texto de PDF y segmentación en trozos

Este ejercicio forma parte del curso

RAG de extremo a extremo con Weaviate

Ver curso

Instrucciones del ejercicio

  • Ejecuta el código proporcionado para procesar los documentos PDF con docling y analizarlos como archivos markdown.
  • Define una función get_chunks_by_length_with_overlap() para segmentar md_txt usando trozos de 500 caracteres y un solapamiento de 100 caracteres.
  • Define una función get_chunks_using_markers() para segmentar md_text_1 dividiendo por encabezados que no sean de título ("\n##").
  • Aplica la función get_chunks_using_markers() a md_text_2 y compara los resultados con md_text_1.


Nota: Si estás ejecutando DataLab en modo restringido (Restricted Mode), este ejercicio aún no es compatible. Estamos trabajando activamente para que esté disponible en el futuro.


Ejercicio interactivo práctico

Pon en práctica la teoría con uno de nuestros ejercicios interactivos

Empezar ejercicio